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لايسمح بإعادة إصدار هذا الكتابء أو نقله في أي شكل أو وسيلة» 
سواء أكان إلكترونية أم يدوية أم ميكانيكية» بها في ذلك جميع أنواع تصوير المستندات بالنسخ» أو 
التسجيل أو التخزين» أو أنظمة الاسترجاع» دون إذن خطي من المركز بذلك. 
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الفصل الأول: استرجاع المعلُومات Yo‏ 
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IVA ٠ الموارد اللغوية اللازمة المتاحة والمطلوبة‎ -٤ 


AY التوجهات المستقبلية والتحديات الي تواجه تنقيب الآراء‎ -٥ 
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كلمة المركز 


يعمل المركز في جال البحث العلمي ونشر الكتب مستهدفاً التركيز على المجالات 
I s I tou‏ علا tS‏ اجك Ad sei‏ 
الباحثين والجهات الأكاديمية إلى أهمية استثغارها بمختلف وجوه الاستشار» وذلك مثل 
Jie‏ (التخطيط اللغوي) و (العربية في العالم) و(الأدلة والمعلومات) و (تعليم العربية 
لأبناتها أو لغير الناطقين Ce‏ إلى غير ذلك من المجالات» وإن من أهم مجالات البحث 
المستقبلية في اللغة العربية مجال (العربية والحوسبة » والذكاء الاصطناعي) حيث إن 
حياة اللغات ومستقبلها مرهونة بمدى تجاويها مع التطورات التقنية والعالم الافتراضي» 
وكثافة المحتوى الالكتروني المكتوب» وهو ما يشكل تحديا حقيقيا أمام اللغات غير 
المنتجة للمعرفة أو للتقنية. 

وقد عمل المركز على تسليط الضوء على هذا المجال التخصصى؛ مستعينا بالكفاءات 
القادرة من المهتمين بالتخصص البيني (بين اللغة ol‏ جهودهم» وهادفاً 
إلى نشرهاء وتعميم مبادئهاء راغباً أن يكون هذا المسار العلمي مقررا في الجامعات في 
كلية العربية والحاسوب» ومجالا بحثيا يقصده الباحثون الأكديميون» والجهات البحثية 


ال 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n—UuUÓ L|‏ 


وقد أصدر المركز سابقا ستة عشر كتاباً ختصا في (حوسبة العربية) وفي الإفادة من 
«المدونات اللغوية) في الأبحاث العربية» ويحتفل بإصدار سبعة كتب جديدة مختصة في 
(حوسبة العربية والذكاء الاصطناعي) » ويقدمها للقارئ العربي» وللجهات الأكاديمية؛ 
للإفادة منها في مناهج التعليم والبناء عليه» وهذه الكتب السبعة هي: (العربيّة والذّكاء 
الاصطناعي» تطبيقات الذكاء الاصطناعي في خدمة AUI‏ العربية» خوارزميات الذكاء 
الاصطناعي في تحليل النص العربي» مقدمة في حوسبة اللغة العربية» الموارد اللغوية 
الاس idi‏ الآلية للنصوص العربية» تطبيقات أساسية في المعالجة الآلية للغة 
ال 

ويشكر المركز السادة مؤلفي الكتب» des s‏ لما تفضلوا به من عمل علمي 
رصين» وأدعو الباحثين والمؤلفين إلى التواصل مع المركز لاستكمال المسيرة» وتفتيق 
فضاءات المعرفة. 


وفق الله الجهود وسدد الرؤى. 


الأمين العام 
أ. د. محمود إسماعيل صالح 
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خض اللات الي لعذه مج cot‏ في LLI‏ الآليّة Eas‏ من مُستوياتٍ 
gll EE‏ وان طاق 
gih‏ الباحثينَ في ميادين ea e‏ يسع مع الطّفرات المائلة Ludi‏ يشهدُها Íle‏ 
الذّكاء الاصطناعيّ. ول M s as‏ ستشرافية للمُستقبل قاصرةً على تمكين الآلة 
من فهم المجموعات المحدودة من التصُوص؛ بل تجاورّت ذلك إلى رغبة Ej‏ في 
تمكين الآلة من JLI‏ مع مجموعاتٍ كبيرةٍ Ced‏ من النصُوص AEI‏ في الأخائر 
اللغويّة ومُستودّعات البيانات. 

Ge تنا حظًا وافرًا من عناية‎ A e t العربيةٌ إحدى اللُغات‎ a i, 
وتقنياتها؛ سواءٌ في صورتها المنطوقة أم المكتوبة؛ وسواءٌ على مُستوى‎ RU في حَوسَبة‎ 
ÁI التطور الملموس في‎ prp oa على مُستوى‎ el محارفها ومبانیهاء‎ 
عن حفن‎ Aer] ينيد‎ a8 uuu ost نعتقة أن‎ Ulp لالب للّخة العريية‎ 
TN بشأن قواعد العربيّة وماهيّتها وقوانين‎ iy ls Js لا‎ ual التساؤلات‎ 
وأنماطها ا والدلالية‎ 
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PEE. 


AAE É)‏ اليوم هذا الكتاب (المُعاَة الآليّه للنضوص العربية) Aa igo‏ الكتاب 
Sea cH‏ سلسلةكرانات ر ف dal Ioue‏ العركة ,5655 ا هذا 


MES‏ اللغة العربيّة» وطرائق مُعالجتها ا 


G‏ ونسعى من خلال ذلك إلى 


تقديم تصور حول واقع مُعالجة النصّ العربيّ من ناحية» وتوجيه القارئ الكريم إلى 

أبرز التحدِّيات في ذلك الميدان من ناحية ثانية» والدّفع ;$7 3 طموحةٍ للمأمول بشأن 
sf‏ و E E‏ 

معالحة النصوص العربية من ناحية ثالثة. 


ورغبةٌ في تحقيق أهدافنا المنشودة؛ فقد قسّمنا الكتابٌ إلى أربعة فُصُولِء على النّحو 


uM 


الفصل 27331 استرجاع المعلومات؛ يُعنى بمفهوم استرجاع ela gall‏ 
وآليّات العثور على pt‏ ني مجموعة كبيرةٍ من الوثائق» es‏ الوثائق 
ال UU PIT‏ خاصيتي البحث «Find neu Search‏ 
ويعنى الفصل S‏ البحث وهياكلها ووظائفها وأساليب تطويرها. 
الفصل الثاني: $m AS GA x CIE Xe AE‏ حول الترجة الآليّة 
وأهمّ المُصطلحات المُستَخدّمة في ذلك الميدان؛ ويعرض كذلك لتقنيات 
Re I‏ الآليّةه.والثّو جهات البح لتطويرهاء والأدوات والموارد الأساسة 
AAE PAPE‏ الفصل مجموعةً من الأفكار البحثيّة المُوجّهة لبناء موارد I‏ مة 
الآليّة. 

الفصل الثّالث: التشكيل I‏ يُعنى هذا الفصلٌ É‏ تشكيل النضُوص 
العربية؛ ويُقدّمُ تعريمًا بعلامات الصّبط العربيّة» كا XU‏ صياغة رياضيّة 
a 3 ou‏ إشكالات التمكيل. وع الفضل ce. 5 LAU‏ 
المُستخدّمة في تطوير XE‏ تشكيل النصوص العربيّة» والموارد اللّازمة 
لذلك؛ ويعرض أخيرًا لبعض الأفكار البحثية التي يُمكنٌ استثارها في إعداد 
أطروحاتٍ Eae‏ مُستقبليّة. 
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° الفصل الرّابع: القيب في النصوص؛ ويشتملٌ على XE‏ مباحث؛ حيث Fi‏ 
في اللبحث الأوّل لأساليب تجميع النصّوص وتصنيفهاء والتطبيقات العمليّة 
للتّجميع والتّصنيف في العرييّة؛ ويُعنى المبحتٌ Gil‏ بتلخيص التْصُوص 
وأنواعه وأساليبه ونهافج آنظمته. JEJE osi UT‏ فيعرض لتطبيق استنباط 
PRIORE‏ العا الذى د أحد اة قطقات الق ق الشوص. 
ویعرش dia‏ اليك الأخيرٌ لأساليب التنقيب عن الآراء وطرائق ذلك في 
Fa si Do JU a a‏ رؤية GEA oer A‏ 
والتّحدّيات التي تُواجِهُ التّقيب عن الآراء. 

وبع فالكتابُ ld‏ على الطّريق إلى حوسبة النصوص العربيّة وتيسير soa‏ 

OT‏ ونحنٌ Ais‏ أن تلي هذه الخُطوةً tad‏ أخرى Ét Zst‏ وإدراكًا لبنية النصُوص 
c ad‏ سعيًا إلى مُعالحة إشكالات هذه النصُوصء وابتكار CU‏ جديدة وناجعة 
لتحسين نتائج PE‏ جاتها. 

JC‏ الله تعالى أن as‏ هذا الجهد H SU‏ والأجر الجزيل» وأن dn‏ من 

العلم الذي ينفمٌ أصحايّه بعد ep‏ 

t5‏ عليكٌ Uil Es Us s‏ وإليك المصير. 


ops 


EP 
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الفصل الأول 
استرجاع المعلومات 


د. As‏ تحدى د. أسامة إمام 


دفر اتيت الشركة العتكبوية. 

5- حر كات البحث المكتبية. 

۷- حر كات ببحث الشبكات الاجتاعية. 

۸- البحث الدلالي. 

4- أفكار تصلح للأطروحات العلميّة (الماجستير والدكتوراه). 
-٠١‏ من المواقع الإلكترونيّة التَعلِيميّة والإرشاديّة. 
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Y‏ — مقدمة 


-١١‏ تعريف استرجاع المعلومات 

dyes‏ استر pe‏ المعلو مات AL (Retrieval Information)‏ إيجاد (c e‏ غاليًا ما 
يكون وثائق من وسط مجموعة كبيرة من الوثائق ذات الطبيعة الغير منظمة» بحيث 
تقوم هذه الوثائق المسترجعة بسدٌ الاحتياجات المعلوماتية للمستخدم. وبعبارةٍ أخرى. 
استرجاع المعلومات هو فن البحث عن المعلومات ذات الصلة بالملوضوع الذي يبحث 
عنه المستخدم. وقد أصبحَ استرجاع المعلومات أحد أهم عناصر التطور QU gall‏ 
نتيجةٌ للزيادة المطردة في كمية المعلومات المتوافرة» والتي تتزايد باستمرار ما يجعل 
cla ll edd d pus liil‏ بعر dmi ag it‏ من أهى بات ie]‏ مر 
معلوماتية قوية. 


(Find) والتَحَرّې‎ (Search) و -الفرق بين خاصيتى البحث‎ ١ 
وذلك‎ (search) المعلومات الذي يعتمد على البحث‎ TENERE 7 
التي تتواجد في معظم برامج وتطبيقات‎ (find) Ty iale de Aem الذي‎ 
الحاسوبء والتي تساعد المستخدم على تحديد كلمة في النص أو الصفحة التي يقرأها.‎ 
فعند البحث عن كلمة ما في إحدى الوثائق أو في مجموعة من الوثائق عن طريق التحرّي‎ 
فإن مُعالِيجَ الحاسوب يقوم بمطابقة كل كلمة في النص بطريقة متسلسلة ويتم تحديد‎ 
مكان أو أماكن التطابق للمستخدم. هذه الطريقة في البحث يعيبها البطء في مُعالحة‎ 
عملية البحث. حيث يتم البحث بمطابقة كلمة كلمة في النص لكلمة البحث مما يجعل‎ 
البحث في كمية كبيرة من النصوص والمستندات غير عملي لطول الوقت المطلوب‎ 

بقة كل الكلمات. ومع هذا تظل خاصية «التَحَرّي» من أهم الخصائص لمعظم 
تطبيقات الحاسوب لأنها تساعد المستخدم في تحديد بعض الكلمات في النص المقروء 
بطريقة سهلة وسريعة بالنسبة للنصوص الصغيرة نسبيًا. 

وفيا ale‏ باسترجاع المعلومات عن طريق البحثء فإن الموضوع يعتمد على طرق 
وعناصر مختلفة من أجل تحديد الوثائق المراد البحث عنها بطريقة أكثر عملية وبدقة 
وإمكانيات أعلى في علمية التطابق والبحث كما سيتضح فيما يلي. 
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Y, Y‏ - نظم استرجاع المعلومات (محركات البحث) 

(S‏ ذكرنا آنقاء OB‏ استرجاع المعلومات عملية متكاملة وأكثر تعقيدا من مجرد 
استخدام التطابق المتسلسل لكلمة البحث مع النصوص كا هو الحال في خاصية 
«التحرّي». هناك نظم كاملة لاسترجاع المعلومات تكون مسئولة بشكل أساسي عن 
استرجاع كل ما كان ذا صلة ب| يبحث عنه المستخدم بطريقة دقيقة وسريعة. الاسم 
الشائع لنظم استرجاع المعلومات هو «محركات البحث». ويتكوّن محرك البحث من 
مجموعة عناصر أساسية تقوم على معالجة الوثائق وموضوعات البحث بطرق ختلفة 
من أجل الحصول على نتائج بحث مرضية للمستخدم. وتختلف كيفية معالجحة البيانات 
والوثائق من تطبيق إلى آخر ومن لغة إلى أخرى؛ فمحركات بحث المكتبات تختلف من 
حيث معالحة المعلومات وطريقة البحث عن محركات بحث الإنترنت أو الويب؛ كما أن 
محرك بحث التطبيق الواحد يختلف من حيث طريقة المعالجة على حسب اللغة أو نوع 
البيانات التي يتم البحث بها. كمثال هذا: مطابقة كلمة «احمد» و«أحمد» تحتاج إلى طريقة 
معالجة خاصة باللغة العربية» Ga‏ أن معالجات مختلفة تكون مطلوبة للغات اللأخرى 
ذات الخصائص المختلفة. طرق المعالجة وطريقة البحث وأسلوب عرض النتائج أهم 
وظائف محركات البحث» وهى التى تجعلها مختلفة LE‏ عن خاصية «التحرّي» البسيطة 
الف تخد لتحذيد يحضي الكليات del let‏ 


٤ \‏ - مجموعات المستندات والوثائق (ما يتم البحث بداخله) 

المهمة الأساسية لمحرك البحث هي استرجاع الوثائق والمستندات ذات الصلة با 
يبحث عنه المستخدم من أجل إشباع حاجته المعلوماتية. قد SE‏ من الوهلة الأولى أن 
هذه الوثائق 5 ن وثائق نصية فقط» ولكن - في الحقيقة - استرجاع المعلومات يشمل 
آي نوع من المعلومات بحيث تأخذ الوثائق صورًا مختلفة» فيمكن أن تكون ملفات نصية 
بسيطة» أو ملفات نصيّة متقدمة كصفحات الويب» أو ملفات نصية منظمة كالملفات 
Words ŽA‏ وملفات XML‏ وأيضًا يمكن أن تكون الوثائق غير نصية بالأساس» 
كالصور والملفات الصوتية والمرئيّات. يمكن أن تكون مجموعة الملفات التي يتم البحث 
فيها كلها من نفس النوع أو من أنواع مختلفة (dea‏ يحدث في محركات بحث الويب» حيث 
تشتمل النتائج على صفحات ويب بالإضافة إلى صور ومرئيات. 


—YA- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO EN‏ 


تحتوي مجموعة الوثائق - أيّا كان Ue p‏ - في الغالب على أعداد كبيرة وهائلة من 
الوثائق حيث تصل إلى آلاف وملايين» بل ومليارات الوثائق كما هو JH‏ في الشّبكة 
العنكبوتيّة. وهذاء فمن الضروري عند تطوير محركات البحث أن تكون قادرة على 
معالجة هذه الأعداد المائلة بدقة وني وقت سريع جدًا. وكمثال على هذاء عند استخدام 
أحد حر كات بحث الويب (مثل: «(Google‏ فإن عملية البحث تتم في بضعة أجزاء من 
الثانية وبدقة عالية. 

في بعض الأحيان يتوجب على محرك البحث أن يحدد تعريف الوثيقة التي يجب 
استرجاعها. فالوثيقة أحيانا لا تكون واضحة التعريف ومن هنا يكون تحديد عنصر 
الوثيقة (وحدة البحث) من واجبات محرك البحث. 

أحد الأمثلة على هذا «محركات بحث المكتبة»)؛ فأحد الخيارات أن تكون وحدة 
البحث هي الكتاب حيث تكون الوثائق المسترجعة في نتائج البحث هي قائمة بأسماء 
الكتب ذات الصلة. 

كما يمكن أن تعرف الوثائق بأنها الفصول في الكتب أو الصفحات أو حتى الفقرات 
داخل الصفحة» بحيث تكون نتائج البحث عبارة عن قائمة بعناوين الفصول داخل 
بعض الكتب أو أرقام الصفحات أو الفقرات التي تحتوي على المعلومة المطلوبة. 

في كل هذه الحالات يوجد نفس المستندات والمحتوى» ولكن تختلف طريقة تعريف 
عنصر الوثيقة وكيفية البحث وعرض النتائج. 

o, Y‏ احتياجات المستخدم (المطلوب البحث عنه) 

تختلفٌ احتياجات المستخدم في عملية البحث من تطبيق بحث لآخر ومن شخصية 
لآخرى. فالسيناريو المعهود في عمليات استرجاع المعلومات والبحث أن يفكر 
المستخدم في موضوع ما ويحتاج إلى بعض المعلومات عنه» فيقوم بالتعبير عن هذا 
الموضوع ببضع كلمات ثم يقوم بالبحث Ce‏ يريد. أحيانا تكون نتائج البحث غير مرضية 
بالنسبة للمستخدم فيقوم بتغيير بعض كلمات البحث أو حتى إعادة صياغة الموضوع 
المراد البحث عنه بكلمات مختلفة كلية. هذا يوضح الفارق الأساسي بين شيئين في عملية 
استرجاع المعلومات» ألا وهما: موضوع البحث وكلات البحث. يمكن تعريف موضوع 


-1١4- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
5 — ييا 


البحث بأنه ما يدور في خلد المستخدم عما يريد أن يجده؛ UT‏ كلمات البحث فهي الكلمات 
المستخدمة للتعبير عن هذا الموضوع» وهي ليست بالضرورة أحسن ما يعبر عن هذا 
الموضوع. ويِبَينُ المثال الموضح أسفله بعض الصياغات المختلفة لنفس موضوع البحث» 
إذ لا توجد بينها كلمة مشتركة واحدة. وإن طلبنا من أشخاص مختلفين صياغة كلمات 
بحث لنفس الموضوع» فمن الصعب أن نجد اثنين يصيغان نفس كلمة البحث. هذا 
يوضح إحدى الخصائص المهمة الواجب توافرها في أي محرك بحث فعال» حيث يفضل 
أن يتم البحث على مطابقة الموضوع» لا على المطابقة الحرفية للكلمات. 

موضوع البحث: يريد المستخدم أن يعرف بعض المعلومات عن ال حجمات على برجي 
التجارة العالميين في الولايات المتحدة الأمريكية عام Yet V‏ 

بعض الصياغات الممكنة لموضوع البحث يمكن أن تكون كالآتي: 

.4/١١ثادحأ‎ * 

* الهجات على بُرجى التجارة العالميين. 

.٠٠٠٠ الحوادث الإرهابية على الولايات المتحدة الأمريكية عام‎ e 

* تفجيرات ١١‏ سبتمبر - أمريكا. 

وعلى النقيض لا تم توضيحه في المثال السابق» OB‏ موضوعات مختلفة يمكن أن 
تصاغ بنفس الكلمات Ut‏ يصنع بعض التخبط لمحرك البحث حيث لا يكون المقصود 
وراء كلمات البحث واضحًا LLE‏ ومثال هذا: قيام المستخدم بالبحث عن عمد عبده). 
هنا موضوع البحث يحتمل احتمالات عدة للمقصود وراء كلمتي البحث كالآتي : 

* محمد عبده: dle‏ دين مصريء عاش في أوائل القرن العشرين. 

° محمد عبده: المطرب السعودي . 

(Ca VESY : ه‎ VYAO) محمد عبدهياني: وزير الثقافة السعودي في الفترة‎ ٠ 

t‏ محمد عبده صالح الوحش: اللاعب السَّابق في المتتخب المصري لكرة القدم. 

وأمثلة أخرى كثيرة لحذاء مثل: 


لات 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


«الرئيس الأمريكي جورج بوش»: (الأب el‏ الابن). 
«النادي الأهلي»: (المصريء السعوديء الليبي» القطري» الأردني» الإماراتي» أم 
«الملك عبدالله»: (ملك السعودية» مؤسس الأردنء أم ملك الأردن الثاني). 


كل هذه الأمثلة توضح أنه ليس بالضرورة أن تكون كلمات البحث معبرة بوضوح 
عن موضوع البحث» كا لا يلزم أن تكون لمستخدم محرّكات البحث نتائج معينة متوقعة 
أو مُرضية لكل الأشخاص. 

تما سبق يمكن استنتاج أن تعريف الاحتياجات المعلوماتية للمستخدم يختلف من 
شخص oz‏ وإن تشابه موضوع البحث أو حتى تشابهت كلمات البحث. وبالتالي فإن 
تعريف الوثائق G‏ المسترجعة التي تكون «ذات صلة» بموضوع البحث هو شيء نسبي غير 
محدد بالضرورة d.‏ هذا من أكبر التحديات التي تواجه أي حرك بحث من أهدافه أن 
يرضي المستخدمين عامة بتنوع توجهاتهم وأهدافهم. 


تتم عملية استرجاع المعلومات على مرحلتين أساسيتين: 


المرحلة الأولى: مرحلة الفهرسة» حيث يتم تجهيز مجموعة الوثائق والمستندات 
المراد البحث فيها بالشكل المناسب وبناء الفهرس الرقمي للكلمات 
والمصطلحات من أجل تسهيل عملية البحث. هذه المرحلة من استرجاع 
المعلومات في بعض الأحيان تتم مرة واحدة فقط وبعدها تكون مجموعة الوثائق 
جاهزة للبحث» ولكن غالبا ما يضطر إلى تكرار عملية الفهرسة كل فترة من 
الزمن» وهذا عند إضافة وثائق جديدة للمجموعة. 

المرحلة الأخرى: مرحلة البحث نفسها؛ وهي التي تتم بشكل متكرر كلما أراد 
أحد المستخدمين العثور على معلومات معينة. وتشمل هذه المرحلة أحيانا تجهيز 
كلمات البحث بشكل ما ليناسب البحث في الفهرس» ثم يتم البحث في الفهرس 
واسترجاع نتائج متماشية مع كلمات البحث ثم عرضها على المستخدم على شكل 
قائمة مرتبة حسب علاقة الوثيقة بموضوع البحث. 


#١‏ ب 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n—UuUÓ L|‏ 


(S‏ هو مبين» هناك عمليات عدة لإتمام عملية استرجاع المعلومات» ولكن المستخدم 
لايرى ما بحدث في الخلفية من هذه العملية إلا ما يكتبه من كلمة بحث ويعود من نتائج 
في النهاية. 

وبعبارة أخرىء Y‏ يتعرّف المستخدم على نوع المعا لجات أو كيفيّة تجهيز الوثائق والكلمة 
في حرك البحث. الجزء القادم يشرح عملية الفهرسة وعملية البحث بشكل تفصيلي. 





الشّكل ١1-١‏ : عملية استرجاع المعلومات. 


—-YNY- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


-Y‏ عملية الفهرسة 
من أجل eU]‏ عملية البحث بشكل سريع ودقيق» يتم بناء فهرس لمجموعة الوثائق 
حتى تسهل معرفة الوثائق التي تحتوي على مصطلحات معينة بشكل سريع. 


۲ - تحديد عنصر المصطلح 

قبل عملية الفهرسة, يتم ned‏ المستندات والكلمات ووضعها في شكل مناسب 
من أجل إنشاء فهرس فعال في عملية البحث. من أهم العمليات عند تجهيز البيانات 
للفهرسة «تحديد عنصر المصطلح». 

التعريف البديبي للمصطلح هو الكلمة. ولكن في الحقيقة - وني معظم اللغات - 
فإن تحديد عنصر المصطلح على أنه الكلمة لا يعد أحسن الخيارات لعملية البحث. وهذا 
لآنه في الغالب يمكن لكلمات عدة أن تكون أشكالا سطحية مختلفة لنفس المصطلح. 
وهذا يشمل إضافة بعض الحروف لساق المصطلحات للحصول على كلمة مختلفة مثل 
إضافة اللواحق في اللغة الإنجليزية وإضافة السوابق واللواحق في اللغة العربية؛ انظر 
الجدول .)١-١(‏ وبالإضافة إلى الطرق المختلفة لكتابة نفس المصطلح كال همزات في 
العربية (احمد/ Quel‏ والحروف الكبيرة (capital)‏ في اللغات اللاتينية ahmed)‏ 
(AHMED‏ سيكون من المتوقع أن يجد المستخدم وثائق مسترجعة من عملية البحث 
تحتوي على المصطلح الأسامي ني كلمات البحث بصرف النظر عن الشكل السطحي 
للكلمة. وهذا فإنه من الضروري جدًا لأي محرك بحث فعال أن تتم معالجة الكلمات 
المستخدمة في نصوص الوثائق وأيضا في كلمات البحث ليحدث تطابق للأشكال 
السطحية المختلفة من الكلمات التي ترجع لنفس المصطلح. 

من أهم عمليات المعالجة الأساسية في معظم اللغات عملية التجريد (التجذيع) 
(stemming)‏ وهى عملية تجريد الكلمات من أي سوابق أو لواحق للحصول على 
ETE‏ 

ee is‏ الجدول )١-١(‏ بعض الأمثلة لأشكال سطحية مختلفة لبعض الكلمات 
العربية والإنجليزية» والتي تقوم عملية التجريد بتوحيد هذه الأشكال المختلفة إلى 
شكل موحد» هو ساق الكلمة» مما يؤدي إلى تطابق أحسن عند البحث. 


3 
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أمثلة أشكال سطحية ختلفة لنفس ساق الكلمة الساق 
الكتب» des a dns Padi‏ كتبهم» كتبهن» كتب 
يلعب» تلعب» يلعبون» لعب» لعبت» وسيلعب لعب 
Play play, played, playing, plays :‏ 
الإنجليزية . 
calculate | Calculate, calculating, calculated, calculation, calculates‏ 














الجدول :١-١‏ أمثلة لبعض الأشكال السطحية لنفس المصطلحات في اللغة العربية والإنجليزية. 


RE‏ الأمثلة الموضحة في الجدول )١-١(‏ أهمية تجريد الكلمات من السوابق واللواحق 
للحصول على الساق ليمثل المصطلح الذي سيدخل عملية الفهرسة. تتم هذه العملية 
أيضًا لكلمات البحث لتتم عملية التطابق على مستوى الساق للكلمات مما يؤدي إلى 
استرجاع أشكال مختلفة من نفس الكلمة» وبالتالي يؤدي إلى قدرة del‏ على استرجاع 
المعلومات. 

هناك طرق ختلفة لتطبيق عملية التجريد للكلمات من السوابق واللواحق. أسهل 
هذه الطرق هى التى تعتمد على حذف حروف معينة من أول أو آخر الكلمات» مثل 
«Jp iie ids‏ > «و» » «ف» c‏ «وال» من أول الكلمات بالنسبة للغة العربية. 
ولكن المشكلة الكبيرة هذه الطريقة هي عدم القدرة على تمييز الخروف» gal‏ أصليّةٌ في 
الكلمة أم هي مجرد سوابق. هذا يتضح في كلمات مثل «الله» و «وحيد» » لأن الناتج عن 
عملية التجريد هذه الطريقة سيكون (GJ‏ و «حيد» على الترتيب. لهذا السبب» فإن هناك 
طرق أكثر تعقيدًا ودقة لحذف السوابق واللواحق دون حدوث أخطاء كهذه. أشهر هذه 
الطرق تعتمد على الأساليب الإحصائية والناذج اللغوية للحصول على تجريد دقيق 
للكليات. 

ومن عمليات المعالجة - التى غالبا ما تطبق في كثير من اللغات - توحيد طريقة AUS‏ 
بعض الكلمات كما ذكرنا سالفا. ويكون الموضوع s‏ في بعض اللغات كالإنجليزية, 
حيث يتم توحيد الحروف الكبيرة لتصير كلها صَغيرة (case lower)‏ من أجل تسهيل 
عملية التطابق (مثل: (ahmed /AHMED‏ في لغة أخرى تكون عملية توحيد أسلوب 


yf 




















هذه الطبعة إهداء من المركز 


ولا يسمح بنشرها ورقياً أو تداولها تجارياً 
OOO‏ 


الكتابة للكلمات أكثر تفصيلا كاللغة العربية كا هو موضح في الجدول التالي: 


| عملية المعالحة 
حذف التشكيل من 
الكلات إن وجد 
حذف علامة توسعة 
الكلات إن cdm‏ 
توحيد ال همزات 


(s ئۇ«‎ ce) 


الألف والهمزة 


توحيد رسم 
Te»‏ !->»ه) 


توحيد الياء (ي» ی (s‏ 


توحيد التاء المربوطة £u s‏ 


(o «— o «8) 








مثال 


7 2 0 
مُؤمِئنون > المؤمنون‎ 
o EE i 


مؤمنون -» مءمنول 


ابناءه» coll‏ ابنائه —- أبناءه 


Ael a ael 
إسلام > اسلام‎ 
آخر سے اخر‎ 
أخري‎ «p 
كلمة سه كلمه‎ 





السبب 


ليست مستخدمة في أكثر 

النصوص العربية» ونادرا 

ما يستخدمها المستخدم à‏ 
الببحث 


لاختلاف كتابة الهمزات 


هذه المعالجة لن يضر الكلمات 
الأخرى 
لعدم الالتزام بطريقة ثابتة 
لكتابة هذه الحروف في 
النصوص العربية» ولا حتى 
في كلمات البحث 


الجدول :1-١‏ عملية توحيد طريقة كتابة الكلمات في اللغة العربية [للبحث أو الفهرسة]. 


من الممكن أن تكون هناك طرق معالجة أخرى oS‏ للحصول على عنصر المصطلح 
قبل عملية الفهرسة» وهذا يختلف من لغة إلى أخرى وفقا لخصائص اللغة وطبيعتها. 


-' حذف الكلمات المستَبِعَدَة (words stop)‏ 


بالإضافة إلى تحديد عنصر المصطلح قبل عملية الفهرسة؛ والّذي يكون في ساق 
الكليات - (Ue‏ فإن عملية حذف الكلمات المستَبعَدَة من النصوص تعد من أكثر 
الأساليب انتشارًا كإحدى عمليات المعالجة قبل الفهرسة. الكلمات المستَبعَدَة هى 
الكلمات ذات الأهمية الضعيفة في عملية البحثء والتي ليست هما قيمة قوية في تحديد إن 
كانت الوثيقة ذات صلة بموضوع البحث آم Y‏ 


—-Yo- 
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الكلمات المستبعَدَة هي الكلمات التي تكون متواجدة في معظم الوثائق في مجموعة 
cte‏ وخذا فى EY‏ وثيقة عن s el‏ وتكما هذه اللات ن الغالب 3,2 
Cl «de (^ «3 x‏ والضائر caa)‏ هي» q^‏ أنت» il‏ 

هذه الكلمات لا تضيف معنى قويًا إلى موضوع البحث وتكون متواجدة في معظم 
الوثائق» وبالتالى فإن حذفها يعد من العمليات التى تساعد على تحسين أداء حرك 
البحثء ك| أن حذفها يساعد على تصغير حجم الفهرس وبالتالي تسريع عملية البحث. 
| اللغة الكلات المسسعَدَة | 
«i «de U^ «à 5 |‏ عن» هو s‏ هم هن۰ cU‏ هذاء coda‏ هؤلاء» كنت» کان» cal‏ 
s‏ هاء التي» $1« قل و» أو «ol «gl‏ إنه» del‏ ذلك تلك .. 


it, he, she, I, you, they, the, them, their, his, her, this, these, 
those, is, are, am, was, were, has, had, have, on, in, from, | الإنجليزية‎ 
to, for, or, and, our, your ... 


الجدول :"-١‏ بعض أمثلة الكلمات المستَبعَدَّة في العربية والإنجليزية 


-Y ۲‏ الفهرس 
بعد عمليات المعالجة للنصوص في الوثائق والحصول على المصطلحات التي ستتم 
الفهرسة cU‏ يقوم نظام استرجاع المعلومات ببناء الفهرس oid‏ المصطلحات. الفهرس 
هو جدول يحتوي على المصطلحات وقائمة الوثائق التي ظهر فيها كل مصطلح بالإضافة 
إلى إمكانية وجود معلومات أخرى عن المصطلح في حالة نظم استرجاع المعلومات 

المتقدمة. 











بافتراض وجود مجموعة من GIU JI‏ بحيث ترقم الوثائق OB ... Y CY 2١‏ أبسط 
أشكال الفهرس يكون ىا هو موضح في الجدول :)5-١(‏ 


| المصطلح أرقام الوثائق التي ظهر فيها | 
أحمد ۱ NYANE‏ 

YNY AAI كف‎ AY مؤمن‎ 

أبناء ك cT‏ اكت QA‏ 5565ل .. 











الجدول :5-١‏ مثال لفهرس بسيط يستخدم في عملية استرجاع المعلومات. 


ات 
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ile مستطلحات بعل عمل ريد‎ a NE 
واللواحق» وبعد عملية توحيد الحروف. الأرقام المقابلة لكل مصطلح هي أرقام‎ 
الوثائق التي ظهر بها هذا المصطلح.‎ 

في أكثر الفهارس الحالية في نظم استرجاع المعلومات» يتم حفظ معلومات إضافية 
عن المصطلح في كل وثيقة. المعلومة الشائع حفظها هي عدد المرات التي ظهر فيها 
المصطلح داخل الوثيقة. كمثال لهذاء بإضافة المعلومة الجديدة يمكن أن تكون المعلومات 
المحفوظة للمصطلح (uel‏ داخل الفهرس کالآتي: QUY (OD LEN‏ 
(CO (oO‏ بمعني أن المصطلح «أحمد» ظهر داخل وثيقة ١‏ أربع مرات» ووثيقة ١‏ مرة 
واحدة» ووثيقة VÉ‏ مرتين» ووثيقة OT‏ عشر مرات. هذه المعلومة تساعد على ترتيب 
الوثائق المسترجعة ك| سيتم توضيحه في الحزئية القادمة. 

أمثلة أخرى لبعض المعلومات التي يمكن حفظها عن المصطلحات والوثائق داخل 
الفهرسء يمكن أن تكون كالآتي: 

* عددالوثائق التي يظهر فيها المصطلح؛ وهي معلومة مهمة جدا تُظهر أهمية المصطلح. 
يتم شرح أهمية هذه المعلومة لترتيب الوثائق المسترجعة في الجزئية القادمة. 

* طول كل وثيقة. حيث هناك طرق للبحث تقوم بمعاملة كل وثيقة حسب طوها. 
هذه المعلومة مهمة في الحالات التي يكون فيها طول الوثائق في المجموعة مختلفا 
بشكل كبير. 

* أماكن ظهور الكلمة في النص» حيث يحفظ مع كل مصطلح ترتيب ظهوره من 
بداية الوثيقة» وهذا يساعد عند الاستعلام عن أكثر من كلمة في كلمات البحث 
على معرفة قرب هذه الكلمات من بعضهاء بحيث تساعد أيضًا على ترتيب 
الوثائق المسترجعة بجعل تلك التي فيها كل كلمات البحث أقرب من بعضها 
تأخذ ترتيبا أعلى في قائمة النتائج. ‏ 

* حجم الخط الذي يكتب به المصطلح» وهذا يكون في النصوص المتقدمة 
والمنظمة كصفحات الويب. فمن المنطقى إعطاء أهمية أكبر للمصطلحات التى 
تكتب بخط أكبر كالعناوين l (oaa‏ 


-/اا ب 
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وبعد بناء الفهرس» تكون مجموعة (SU JI‏ جاهزة لعملية البحث من E‏ 
المستخدمين. 


I -Y‏ البحث 


V, Y‏ - تجهيز كلمات البحث 

عندما يقوم المستخدم بإدخال cos‏ البحث على محرك البحث» تكون أولى الخطوات 
هي تجهيز هذه الكلمة بالصورة المناسبة من أجل بحث الفهرس. 

غالبا ما تكون العمليات المعالجية في عملية التجهيز هى نفسها التى تحدث قبل 
عملية الفهرسة. فبفرض أن عمليات التجهيز هي التي تم ذكرها سابقا في عملية 
الفهرسة من تجريد الكلمات وحذف الكلمات المستبعَدة؛ فإذا كانت كلات البحث هى 
الخو و ا sc obla‏ يدا E‏ ا ت 
أبناء» لتكون جاهزة للبحث في الفهرس عن الوثائق التي تحتوي على هذه المصطلحات. 

(Binary Search) بحث منطقي‎ -Y ,Y 

S‏ البحث المنطقي أبسط أنواع طرق استرجاع المعلومات» حيث يعتمد فقط على 
تواجد كلمات البحث داخل الوثيقة ليقوم باسترجاعها دون محاولة ترتيب النتائج. ففي 
المثال السابق» تكون الوثائق المسترجعة هى التى تحتوي على المصطلحات الثلاثة «أحمد 
Gil oda al el ) 4-17 lad alis, o als tel cage‏ 
المسترجعة تظهر في قائمة غير مرتبة على أساس صلة الوثيقة بموضوع البحث. ولكن 
فقط تكون كل الوثائق المسترجعة هي التي تحتوي على الثلاثة مصطلحات مجتمعة. 

هذا الأسلوب في البحث غير واسع الانتشار إلا في بعض تطبيقات البحث 
القانونية كالبحث عن براءات الاختراع أو البحث في الوثائق القانونية» حيث يكون 
المستخدمون للبحث هنا أفرادًا متخصصين يقومون ببناء كلمة البحث بشكل حرفي 
يعتمد على وجود المترادفات في كلمات البحث. فيمكن أن تكون كلمات البحث في 
المثال السابق بالشكل الآتي: «أحمد + (مؤمن|تقي |ملتزم) + (أبناء |أولاد)». فعلامة «+) 
تدل على ضرورة وجود المصطلحات مجتمعة» وعلامة «|» تدل على إمكانية وجود أي 
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من الكلمات التي بين الأقواس. فيصبح معني JUL‏ السابق: SË‏ عن كل الوثائق التي 
تحتوي على المصطلح «أحمد» بالإضافة إلى (sl‏ من المصطلحات «مؤمن)» «تقي»» أو 
«ملتزم»» بالإضافة إلى GÍ‏ من المصطلحين «أبناء» أو «أولاد). 


CY, Y‏ بحث إحصائي 

البحث الإحصائي هو الأكثر ML Ped qu Id s‏ 
الحالي. هذه الطريقة من البحث تعتمد على النهاذج الإحصائية لاسترجاع الوثائق 
cà‏ إننضاية غدلقة لاسترجاع امغلونات c‏ 
الوثائق التي تحتوي على معلومات تؤهلها لتكون ذات صلة بكلات البحث وتعمل 
على ترتيبها ليكون الأكثر صلة على قمة قائمة النتائج . على عكس البحث المنطقي الذي 
تكون فيه النتائج هي التي تحتوي فقط على مصطلحات البحث. فإن البحث الإحصائي 
يعمد عل eae‏ كل راا عر هل uel‏ عن تضطاتداك الست slg cina Rai‏ 
هذه القيمة US‏ ازدادت دلالات صلة الوثيقة بمصطلحات البحث. 


يمكن توضيح بعض الأفكار الأساسية لعمل هذه النماذج الإحصائية كالآتي: 

i‏ إعطاء وزن ضعيف للمصطلحات التي تظهر في عدد أكبر من الوثائق» حيث 
إنها دلالة على أن هذه المصطلحات غير قادرة على التمييز بين الوثائق المختلفة 
وهذا هو السبب الأساسي لحذف الكلمات SARI‏ التي تظهر في معظم الوثائق 
وتكون تقريبًا عديمة القيمة بالنسبة للبحث. 

* إعطاء قيمة أكبر للوثائق التي تظهر فيها مصطلحات البحث بعدد أكبر. فكلا 
كانت مصطلحات البحث متكررة بشكل أكبر داخل الوثيقة LIS‏ كان هذا دليلاً 
على أن الوثيقة تتحدّث عن هذه المصطلحات. 


٠‏ الاعتاد على نسبة ظهور المصطلحات داخل الوثيقة بدلا من عدد مرات 
الظهورء كنوع من إعطاء فرص متكافئة للوثائق القصيرة أمام تلك الطويلة. 
فظهور مصطلح معين عشر مرات في وثيقة طوها صفحة واحدة يمكن أن 
يكون أكثر صلة لهذا المصطلح من وثيقة أخرى ظهر فيها المصطلح عشرين مرة 
ولكن طوها عشر صفحات. 


-۲۹- 
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* إعطاء قيمة أكبر للوثائق التي تظهر فيها مصطلحات البحث قريبة أكثر من 
بعضها. فهذا يعد دليلاً على دقة وقرب الموضوع في الوثيقة من موضوع البحث. 

هناك طرق إضافية لتحسين مستوى استرجاع المعلومات» ومعظمها يعتمد على 
إحصاء البيانات داخل مجموعة الوثائق» وفي بعض الأحيان تعتمد أيضًا على إحصاء 
البيانات من المصطلحات التي يستخدمها مُستخدمو محرك البحث. 

كمثال توضيحي للناذج الإحصائية في استرجاع المعلومات» يمكن النظر للمثال 
السابق «أحمد مؤمن أبناء»؛ حيث تكون كل الوثائق في الجدول CE- V)‏ قابلة للاسترجاع» 
لأن واحدة من هذه الكلمات على الأقل قد ظهرت بداخلها. ويتم ترتيب هذه الوثائق في 
النتائج على حسب نسبة ظهور كل مصطلح داخل GÍ‏ من هذه الوثائق وأهميته. 

۳ - إثراء كلمات البحث 

أحد الأساليب المتبعة في بعض نظم استرجاع المعلومات هو إضافة بعض 
المصطلحات إلى المصطلحات الأصلية التي أدخلها المستخدم. المدف الأساسي من هذا 
الأسلوب هو زيادة احتمالية التطابق بين موضوع البحث والوثائق للحصول على نتائج 
أفضل. هناك طرق متعددة لكيفية إضافة المصطلحات. لعل أكثرها شيوعا: 

° الإثراء بذات الصلة (feedback relevance)‏ : في هذه الطريقة تُعرض نتائج 
البحث على المستخدم ثم يقوم المستخدم بتمبيز ما يراه ذا صلة U‏ يبحث عنه» 
وبعدها يعيد البحث بنفس كلات البحث. يقوم محرك البحث باستخراج 
بعض الكلمات من الوثائق التي ba za‏ المستخدم بأنها ذات صلة وإضافتها إلى 
كلمات البحث الأصلية ليتم استرجاع وثائق جديدة تحتوي على الكلمة المضافة 
بالإضافة إلى كلمات البحث الأصلية. كمثال واضح لهذاء إذا كانت كلمات 
البحث الأصلية هي «أحداث 24/١١‏ فمن المتوقع أن تكون معظم الوثائق 
ذات الصلة التي يحددها المستخدم تحتوي على الكلمات: «الولايات المتحدة 
الأمريكية» c‏ (المججات)» (sls ND c‏ » برجي التجارة»). يقوم محرك البحث 
باستخراج هذه الكلمات بشكل آل وإضافتها إلى كلمات البحث الأصلية 
للحصول على نتائج بحث أفضل في المرة التالية. 


EIC 
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* الإثراء المستعار/ 15N‏ بذات الصلة le :(feedback relevance pseudo)‏ 
أن معظم المستخدمين لمحركات البحث Y‏ يفضلون إجراء عملية البحث على 
مرتين» أو على الأقل ينأون عن تحديد ما يرونه ذا صلة من أجل تنفيذ عملية 
الإثراء» فهذه الطريقة تعتمد على الإثراء الاصطناعي دون الاحتياج إلى تدخل 
المستخدم من الأساس؛ فهي تفترض أن الوثائق ق المسترجعة على قمة قائمة 
النتائج تكون col‏ صلة. ولهذا فهي الطريقة الأكثر انتشارا لعملية إثراء كلمات 
البحث. مثال ذلك: اعتبار أن الخمس وثائق المسترجعة من عملية البحث 
cds,‏ البحث الأصلية تكون ذات صلة» ومن ثم تقوم باستخراج كلمات 
إضافية منها وإضافتها إلى كلمات البحث والبحث مرة أخرى. ما يتم عرضه 
للمستخدم هو نتائج البحث الثانية مباشرة مع عدم إظهار النتائج الأصلية له. 


معجم المترادفات: وهو معجم أو قاموس يحتوي على المصطلحات وبعض 

المرادفات هما. يمكن أن يكون هذا المعجم e‏ من خلال لغويين أو مبنيًا بطريقة 

XUI‏ . قبل عملية البحث تضاف هذه المرادفات لمصطلحات البحث الأصلية 

ليتم البحث في مجموعة الوثائق عن التي تحتوي على كلمات البحث أو مرادفاتها. 

ودائما ما تكون نتائج هذه الطرق لإثراء كلمات البحث غير ثابتة؛ فأحيانا تساعد هذه 

GA‏ على تحسين النتائج وأحيانًا تؤدي إلى الإضرار بها. وهذه مشكلة معهودة في معظم 

التقنيات وخصوصا ales Us‏ منها باسترجاع المعلومات؛ وهي مشكلة الدقة مقابل الكم. 

فكلا زادت المرادفات في كلمات البحث كلا زادت احتالية استرجاع نتائج ذات صلة 

إضافية» ولكن في نفس الوقت يمكن استرجاع وثائق ليست ذات صلة. ولهذا يجب عند 

تصميم محرك بحث بخاصية إثراء كلمات البحث مراعاة أن النتائج لن تكون Glo‏ أحسنَ 

ما تكون. وعليه» فمن الأفضل أن تكون هذه الخاصة اختيارية» بحيث يستطيع المستخدم 
الاستفادة منها أو تركها. 


Ed 
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٤‏ - تقييم البحث 
-١ , ٤‏ كيفية بناء مجموعات اختبار لاسترجاع المعلومات 
يجب تقييم أداء محرك البحث للتأكد من قدرته الفعالة على استرجاع المعلومات 
ولمعرفة نقاط ضعفه والقدرة على تحسينها. من أجل عملية التقييم» يمكن بناء مجموعة 
بيانات لاختبار حركات البحث بطريقة علمية وعملية في نفس الوقت. مجموعة الاختبار 
ينبغي أن تحتوي على ثلاثة عناصر أساسية: مجموعة الوثائق» ومجموعة موضوعات 
البحث» وتحديد الوثائق ذات الصلة. 

عنصر مجموعة الوثائق يكون في الغالب هو نفسه الذي يعمل عليه محرك البحث. 
وإن كان لا يوجد مجموعة معينة للوثائق ويراد اختبار محرك بحث معين أو طريقة 
بحث معينة» فيجب تحضير مجموعة بحث ذات طابع مناسب لمحرك البحث» وينبغي 
أن يكون عدد الوثائق في هذه المجموعة مقاربًا للواقع» بحيث لا يقل عن عشرات أو 
مئات الآلاف. 

بالنسبة لمجموعة موضوعات البحث» يتم تجهيز مجموعة من الموضوعات الاختبارية 
ليتم البحث عنها في مجموعة الوثائق» وعند كتابتها يفضل مراعاة بعض الشروط: 

* أن تكون مناسبة لمجموعة البحث المختبرة من حيث الطابع وأحيانا الفترة 
الزمنية. فعندما تكون مجموعة البحث عبارة عن مقالات إخبارية لإحدى 
الجرائد في فترة من الفترات» فليس من المتوقع أن تكون موضوعات البحث عن 
مقالات علمية في مجال الكيمياء» كما أنه ليس من المتوقع أن تكون موضوعات 
البحث عن أخبار في فترة زمنية تلي فترة مجموعة الوثائق بخمس سنوات. فغالبا 
ما تكون الأحداث مغايرة والأشخاص جددًا. 

* أن يوضح مع كل موضوع التفاصيل لما يتم البحث عنه بالتحديد ونوع وثائق 
المستندات المتوقع أن تكون ذات صلة. هذا التفصيل مهم جذاء حيث تحتمل 
كلمات البحث - كما ذكرنا آنا - أن تأخذ معاني مختلفة» بالإضافة إلى أن تقييم 
المستخدمين لما كان ذا صلة يختلف من شخص لآخرء ولذا يفضل lo‏ التفصيل 
في شرح ما ينبغي اعتباره ذا صلة. 
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٠‏ آلا يقل عدد موضوعات البحث عن YO‏ موضوعا. هذا الرقم بالتحديد جاء 
عن طريق عدة أبحاث في Jle‏ استرجاع المعلومات؛ إذ da3‏ أن هذا العدد هو 
أقل عدد لتكون النتائج الناتجة عن التقييم معبرة فعلا عن قدرة نظام البحث. 
بالطبع US‏ زاد عدد الموضوعات US‏ كان أفضل» حيث إن الرقم المتعارف عليه 
في كثير من الأبحاث في محال استرجاع المعلومات هو ٠١‏ موضوعًا اختباريًا. 


| أحداث 1/1١١‏ كلمات البحث | 
أحداث الهجات على برجي التجارة العالميين في الولايات المتحدة الأمريكية | شرح موضوع 


الوثائق ذات الصلة ينبغي أن تتحدث في الأساس عن هذه الحادثة وتفاصيلها 
أو على الأقل النقاط الأساسية للموضوع . الوثائق التي تتناول تداعيات | سرد الموضوع 
اجات دون الخوض في تفاصيل ال هجات نفسها لا تعد ذات صلة. 


الجدول :5-١‏ مثال لموضوع بحث اختباري بعناصره التفصيلية» يُمكن استخدامه في عمليّة التّقييم. 

يُوَضْحٌ المثال المعروض ني الجدول )٥-١(‏ أهمية وجود التفاصيل» حيث يمكن لأي 
مستخدم في هذه ا حالة تقييم أي وثيقة إن كانت ذات صلة آم لا. وهذا يفتح الحديث 
عن العنصر الثالث لمجموعة الاختبار» وهو تحديد الوثائق ذات الصلة لكل موضوع. 

تحديد الوثائق ذات الصلة هو ثالث عنصر أسامي لاستكمال عناصر تقييم البحث. 
ينبغي تحديد الوثائق ذات الصلة لكل موضوع بحث حتى يمكن بعد ذلك اختبار أي 
نظام استرجاع معلومات على قدرته على استرجاع تلك الوثائق. 

الطريقة المثالية لتحديد كل الوثائق ذات الصلة بموضوع ما تتمثل في مراجعة كل 
الوثائق التي في المجموعة حتى لا يتم إفلات أي موضوع. بالطبع هذه الطريقة إن كانت 
مثالية فإنها غير واقعية بالمرة. فمن المستحيل مراجعة عشرات الآلاف من الوثائق» بل 
وأحيانا عشرات الملايين منهاء لتحديد ما OUS‏ ذا صلة. الطريقة الواقعية هنا تعتمد على 
تحديد ما كان ذا صلة عن طريق مراجعة الوثائق المسترجعة من محرك البحث فقط. 
ولكن أي محرك بحث هذا؟ أهو الذي يراد اختباره؟ كيف يكون ما يراد اختباره هو 
نفسه الذي سوف يستخدم في تحديد ما كان ذا صلة؟ في هذه الحالة ستكون كل النتائج 
منحازة لهذا المحرك البحثيٌّ. وهذا يتم استخدام أسلوب «التجميع» لحل هذه المشكلة. 
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* يتم البحث بموضوعات البحث باستخدام أكثر من محرك بحث وحفظ قائمة 
النتائج لكل محرك. 
* يتم البحث بأكثر من طريقة واحدة في محرك البحث الواحد؛ فيمكن كمثال 
تفعيل إثراء كلمة البحث بطرق مختلف. كا يمكن استخدام كلمات البحث 
بالإضافة إلى شرح الموضوع لموضوعات البحث الاختبارية (الجدول (o7 Y‏ 
يتم حفظ قائمة النتائج في كل مرة. 
* يتم تجميع قوائم النتائج كلها في قائمة واحدة طويلة بعد حذف النتائج المتكررة. 
فيمكن أن تؤخذ قائمة نتائج تحتوي على ٠١‏ وثيقة لكل طريقة بحث. بفرض 
تجميع ٠١‏ قائمة» فالعدد النهائي للوثائق المسترجعة يمكن أن يكون 00١‏ بعد 
التأكد من عدم تكرار أي وثيقة مسترجعة في القائمة المجمعة. 
* ترتب الوثائق في القائمة المجمعة بشكل عشوائى حتى لا يعطى انطباعًا ob‏ 
الوثائق في أعلى القائمة تكون ذات احتالية أعلى لتكون ذات صلة. 
* تعرض القوائم المجمعة لموضوعات البحث الاختبارية على مستخدمين ليتم 
مراجعة كل SU JE‏ في القائمة وتحديد ما كان ذا صلة بموضوع البحث بناءً على 
تفصيل الموضوع (ك| هو موضح في الجدول Y‏ 07( 
° يتم حفظ تقييم الوثائق إن كانت ذات صلة أو لا با موضوع لتستخدم لاحقا في 
بالطبع هذه الطريقة Y‏ تضمن تحديد كل الوثاتق ذات الصلة» ولكنها على الأقل 
تضمن إلى حد كبير استرجاع عدد كافٍ من الوثائق ذات الصلة» والأهم من هذا عدم 
انحيازها إلى حرك بحث أو طريقة بحث معينة. 

عند اختبار أي نظام استرجاع معلومات لاحقاء يتم البحث بموضوعات البحث 
كمية الوثائق ذات الصلة التي نجح نظام استرجاع المعلومات المختبر في استرجاعها. 
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£ و - نسبة الدقة (precision)‏ مقابل نسبة الاستر جاع (recall)‏ 

33, ell إن‎ em الصا‎ celà الكت هو الكرر عل الوقائق‎ lae من‎ a AI 
البحث يقاس بمؤشرين رئيسين» هما مؤشر الدقة ومؤشر نسبة الاسترجاع. ويقوم‎ 
مؤشر الدقة بحساب نسبة المسعيدات والوثائق ذات الضلة الناتئجة عن عملية البحت‎ 
يقوم مؤشر‎ lea الناتجة عن عملية البحث؛‎ SU JE s مقارنة بالعدد الإجمالي للمستندات‎ 
الاسترجاع بحساب نسبة الوثائق ذات الصلة المسترجعة من عملية البحث مقارنة‎ 
بالعدد الإجمالي للوثائق ذات الصلة. ولتيسير ذلك يمكن القول إن مؤشر الدقة يشير‎ 
إلى قدرة المحرك على استرجاع وثائق ذات صلة ولكن ليست ضمن مجموعة كبيرة من‎ 
الوثائق الأخرى. أما نسبة الاسترجاع فتشير إلى مدى نجاح المحرك في استرجاع أكبر‎ 
ذات الصلة من مجموعة الوثائق.‎ (SU JI كم تمكن من‎ 

١ olli‏ والمعادلة Y‏ توضحان كيفية حساب كل من الدقة ونسبة الاسترجاع: 

نسبة الدقة = (عدد الوثائق ذات الصلة المسترجعة)/ (مجموع الوثائق المسترجعة)...... QD‏ 

نسبة الاسترجاع = (عدد الوثائق ذات الصلة المسترجعة)/ (مجموع الوثائق ذات 


ما يمكن استنتاجه من المعدلات أن قيمة نسبة الاسترجاع تزيد S‏ زاد عدد الوثائق 
المسترجعة» فهذا يعطي احتمالية أكبر لاسترجاع وثائق ذات صلة» ولكن في نفس الوقت 
غالبا ما يؤدي هذا إلى انخفاض الدقة OY‏ احتمالية استرجاع وثائق ليست ذات صلة 
يزيد أيضًا مع زيادة عدد الوثائق المسترجعة. 

كمثال لحساب كل من الدقة ونسبة الاسترجاع» نفرض أنه تم اختبار أحد محركات 
البحث بأحد الموضوعات التى حدد لما ٠١‏ وثيقة ذات صلة. بفرض أن محرك البحث 
M ECCE‏ رم اهجا ن 
bla‏ ختلفة في قائمة النتائج كا هو موضح في الجدول OU)‏ 
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الجدول :5-١‏ مثال يوضح كيفية حساب كل من مؤشر الدقة ومؤشر نسبة الاسترجاع عند نقاط 
مختلفة من قائمة النتائج لموضوع اختباري له ١‏ وثيقة ذات صلة. 


كما يتضح من الجدولء فإنه في الغالب تقل الدقة كلما زادت أعداد الوثائق المسترجعة 
وعلى العكس تزيد نسبة الاسترجاع كلما cool‏ هذه الأعداد. LÀ s‏ فإنه في Jle‏ استرجاع 
المعلومات ينبغي أن يتم التوازن بين الدقة ونسبة الاسترجاع. 

(precision average mean) متوسط الدقة‎ -Y و‎ ٤ 

متوسط الدقة (MAP -precision average mean)‏ هو المقياس الأكثر انتشارا 
لتقييم نظم استرجاع المعلومات. فهو يقيس متوسط الدقة عند نقاط ختلفة في قائمة 
النتائج. وكا أشرنا آنقاء فإن الدقة تحسب عند نقطة معينة في قائمة النتائج» أما متوسط 
الدقة فهو يحسب على أنه متوسط قيم الدقة عند النقاط في القائمة التي توجد فيها وثيقة 
ذات صلة. وبعبارة أخرى» cn‏ الدقة كلما وُجدت وثيقة ذات صلة» ثم يتم حساب 
المتوسط لكل القيم المحسوبة. كمثال لهذاء إذا افترضنا وجود ست وثائق ذات صلة في 
النتائج العشرة المسترجعة الأولى في المراكز: AN E A AcE ء١ Y‏ فإن متوسط الدقة 


يحسب کالاآتی: 
الدقة عند هذا ال كز عدد الوثائق ذات الصلة التي | المركزالذي تو i:‏ ذات 
عثر عليها إلى الآن صلة في قائمة النتائج 
١ ١ ۱/۱‏ 
Y Y yv /Y‏ 
Y (voc EfY‏ 3 
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الدقة عند هذا المركد عدد الوثائق ذات bd‏ التي المركز الذي تو جد فيه و ذات 
عثر عليها إلى الآن صلة في قائمة النتائج 
E‏ 08( 3 1 
q 0 ١,06 - fo‏ 
E 1 (18 ١/5‏ 
متوسط الدقة فى هذه الحالة - 


Vt, VO VY)‏ , لمهم جكره)/” دار 

Sd‏ = لدقة حساب daa yia‏ الدقة > بي coa‏ معوسظ ]33.0 عند كل النقاظ 
التي توجد فيها وثيقة ذات صلة إلى أن يتم العثور على كل الوثائق ذات الصلة المحددة 
في مجموعة الاختبار. وبا أنه أحيانا يمكن ألا يتم استرجاع كل هذه الوثائق» فإنه يعتبر 
أن تلك الوثائق الغير مسترجعة وجدت عند المركز اللا Le‏ | لتكون الدقة في هذه الحالة 

متوسط الدقة - مجموع قيم الدقة عند كل وثيقة ذات صلة في قائمة البحث / مجموع 
الوثائق ذات الصلة O MEE‏ 

فإذا افترضنا في المثال السابق أن عدد الوثائق ذات الصلة هو ثانية وأن ما تم 
استرجاعه هو V‏ فقط. تكون قيمة متوسط البحث هى: 

S,0V 2 A Cn سمه سبك عبد‎ T+, VOY Y) 

ما يمكن استنباطه من طريقة حساب متوسط الدقة أنه يركز على إيجاد الوثائق ذات 
الصلة على قمة قائمة النتائج» إذ إن إيجاد وثائق ذات صلة في مركز متأخرة في القائمة 
لا يضيف الكثير إلى قيمة القياس. وهذا فإن متوسط الدقة يعطي أفضلية للنظم التي 
تستطيع أن تسترجع وثائق col‏ صلة مبكراء وإن لم تجد كل الوثائق ذات صلة. 
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ه - حر كات بحث الشّبكة العنكبوتيّة 

تعد محركات بحث الشّبكة العنكبوتيّة [الويب] أكثر أنواع محركات البحث 
استخداماء حيث SEE‏ مُستخدموها في جيع أنحاء العالم. zer y‏ الفكرة الأساسية 
لمحركات بحث الويب على نفس فكرة استرجاع المعلومات؛ ولكنها تختلف عن 
محركات البحث العادية في ide‏ أشياء» منها: 

-١5‏ مجموعة الوثائق: من أهم الطباع الخاصة جدا بمحركات بحث الويب 
تنوع أشكال الوثائق التي يتم البحث فيها. فإن البحث يشمل صفحات 
الويب والصورء es M‏ والمقالات العلمية» والأخبار» وغيرها. كما أن 
أحجام مجموعة الوثائق يصل إلى مليارات الوثائق. هذا يعطي طابعا خاصا 
لمحركات بحث الويب حيث ينبغى أن تكون قادرة على معالجة هذا العدد 
ull‏ من الوثائق بمختلف det y]‏ 

Y, o‏ 7 تجميع الصفحات والبيانات من على الإنترنت: بخلاف معظم محركات 
البحث التي تكون فيها مجموعة الوثائق متواجدة ليكون كل ما على محرك 
البحث هو تنظيمها وفهرستهاء فإن محرك بحث الويب يكون عليه أن يجمع 
الصفحات التي يريد فهرستها أولا من على الإنترنت. وهذا OB‏ عملية 
تمي البيانات تعد من eal‏ عناصر فعالية حركات بحث الويب؛ فلا فائدة 
من وجود محرك بحث قوي للويب إن كان لايحفظ الصفحات التي سيبحث 
فيها من الأساس. وبعض محركات البحث للويب تمتلك أفضلية على أخرى 
ليس بسبب أفضليّة نظام البحث؛ وإنا ONY‏ أحدهما يستطيع تجميع صفحة 
الويب بشكل أكثر فعالية. 

0 "- التحديث المستمر: المحتوى على الشّبكة العنكبوتيّة محتوى ديناميكي غير 
ثابت ويحدث له تحديث بشكل مستمر. Mis‏ 2-3 كاك هف الزيت 
ينبغي أن تقوم بتحديث الفهرس أولا بأول هذا الكم الهائل من الصفحات 
بشكل متكرر La‏ فيعض غركات cte‏ الريب تقوم يعملية adl‏ 
للفهرس لبعض الصفحات عدة مرة في الساعة الواحدة لتواكب التغير 
المستمر في المحتوى للحصول Glo‏ على نتائج بحث مستحدثة. 
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0,£- طريقة البحث: طريقة استرجاع المعلومات لمحركات بحث الويب تكون 
أكثر تقدما بكثير من محركات البحث العادية. فهي لا تعتمد على تطابق 

المصطلحات فقطء وإنا تمتد لتشمل خصائص كثيرة جدا منها: 

* أهمية الصفحة: فإنها من أهم الخصائص الواجب أخذها في الاعتبار 
عند البحث» فليست كل الصفحات على الإنترنت تكون بنفس ذات 
الأهمية حتى وإن كانت تحتوي على نفس المحتوى. كمثال لأهمية 
هذه الخاصية» عند البحث عن كلمة «برنامج مايكروسوفت 5555( 
فإن النتائج يمكن أن تحتوي على إحدى الصفحات التي تشرح كيفية 
استخدام هذا البرنامج» ويمكن أن تكون هذه المصطلحات ظهرت 
مرات عديدة داخل الصفحة؛ فاي up‏ بحث عادي سيضع هذه 
النتيجة في S M‏ الأول في قائمة النتائج. أما بالنسبة لمحرك البحث» OP‏ 
صفحة موقع شركة مايكروسوفت الرسمية على الإنترنت أكثر أهمية من 
تلك الصفحة» وهذا فإن الصفحة النصّيّة على موقع الشركة» حتى وإن 
لم تظهر بداخله كلمات البحث إلا مرة واحدة. B‏ من المفضل أن تكون 
هي النتيجة التي على رأس القائمة ثم تليها بعد ذلك النتائج ذات الصلة 
الأخرى. 

* سجل الاستخدام: أي محرك بحث ويب ناجح يقوم بتسجيل ما يقوم به 
مستخدموه من عمليات بحث في سجل حتى يستفاد منه لاحقا في تحسين 
أداء المحرك. يتم حفظ بعض المعلومات في هذا السجل ككلمات البحث 
التي يبحث عنها المستخدمون والنتائج التي يختارونها لهذه الكلمات. 
فإذا وجد في السجل أن معظم المستخدمين يقومون (elo‏ باختيار النتيجة 
الرابعة لأحد موضوعات البحث» فهذا دليل قوي على أن هذه النتيجة 
هي أفضل من سابقاتهاء ومن ثم يقوم محرك البحث بإظهارها على قمة 
النتائج بدلا من المركز الرابع. 

* مكان المستخدم: يمكن لمحرك البحث معرفة مكان المستخدم عن 
طريق عنوانه الذي يقوم منه بعملية البحث. هذه المعلومة تساعد على 
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تحسين النتائج خصوصا لكلمات البحث التي فيها التباس» كال مثال الذي 
استخدم في بداية الفصل عن «النادي الأهلي». حيث يمكن لمحرك 
البحث تحديد النادي المقصود عن طريق معرفة مكان مستخدم ja‏ 
البحث. 

0,0- كيفية التقييم: تقييم أداء محركات بحث الويب يختلف قليلا عن نظم 
استرجاع المعلومات العادية. الفرق الأساسي هو تعريف ما كان ذا صلةء 
فالوثائق لا تحدد على أنها ذات صلة أو لاء وإنما ما كان ذا صلة يأخذ تقييا 
متدرجاء بحيث تحدد الوثائق في النتائج على كونها إجابة: -مثالية» ممتازة» 
جيدة» مقبولة» سيئة- وتستخدم قياسات أخرى للتقييم تعتمد في الأساس 
على تقييم قدرة محرك بحث الويب على استرجاع النتائج الأفضل أولا. 
وغالبا ما تحسب القياسات على استرجاع عشرة وثائق على الأكثر حيث إن 
مستخدم الويب في الغالب لا يقوم بتفحص أكثر من عشرة نتائج بحث. 

oda 4s‏ الساطعل RM vis o‏ جام lies T call all‏ ا 

من حركات البحث الأخرى. ومن الأمثلة الشهيرة على حركات بحث الويب: جوجل 
(Google)‏ بينج (Bing)‏ ياهو (Yahoo)‏ ياندكس (Yandex)‏ بايدو .(Baidu)‏ 


٦‏ - حر كات البحث المكتبية 

محركات بحث المكتبات تعد أيضا من أكثر أنواع نظم استرجاع المعلومات انتشارا. 
ليس بالضرورة أن تكون هذه المحركات داخل المكتبات فقط ولكنها أيضًا تشمل 
محركات البحث الخاصة بالكتب عامة كمواقع الكتب على الإنترنت. فكلها ذات طابع 
متماثل وتحتاج إلى طرق معالجة متشابهة. مجموعة الوثائق في هذه ال حالة تكون عبارة عن 
كتب غالبا ما تكون ذات أعمار مختلفة. 

ما يميز استرجاع المعلومات للمكتبات هو وجود محتوى الكتب القديمة. با أن 
الكتب القديمة التي ترجع إلى ما قبل منتصف القرن العشرين تكون متواجدة فقط في 
صورة كتب مطبوعة» فمن أجل تفعيل عملية البحث لا بد من تحويل هذه الكتب إلى 
كتب رقمية تخزن على الحاسوب حتى يستطيع المستخدم البحث في محتواها بسهولة. 


e 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


الطريقة LEM‏ لتحويل محتوى الكتب إلى شكل رقمي هي إعادة كتابتها وإدخاها 
للحاسوب عن طريق أشخاص متخصصين» ولكن هذه العملية يعيبها البطء الشديد 
والتكلفة الباهظة جدا لإدخال الآلاف وأحيانا مئات الآلاف من الكتب. 


الحل البديل لعملية تحويل الكتب إلى الشكل الرقمي هو استخدام نظام التعرف 
الضوئي على الحروف OCR‏ (التفصيل لنظم التعرف الضوئي على الحروف يوجد في 
الباب الخامس عشر)» بحيث يتم تحويل محتوى الكتب UT‏ إلى شكل رقمي وحفظ 
النص على الحاسوب لتفعيل القدرة على البحث. هذه الطريقة تتميز بالسرعة الفائقة 
والتكلفة الموفرة» ولكن تتمثل المشكلة الأساسية في وجود بعض الأخطاء في التعرف 
على بعض ا حروف. وجود أخطاء في بعض الحروف يؤدي إلى عدم تطابق المصطلحات 
أثناء عملية البحثء وبالتالي يؤدي إلى انخفاض مستوى نتائج البحث. كمثال هذه 
الأخطاءء. إذا تم التعرف على كلمة «أحمد» في النص المطبوع على أنها «Ge‏ فهذا 
يؤدي إلى عدم استرجاع الوثيقة عند البحث عن كلمة Sete‏ يؤدي إلى الاسترجاع 
الخاطئ oid‏ الوثيقة عند البحث عن كلمة «أحمر). 

هناك عدة أساليب متبعة من أجل تفادي هذه المشكلة الناحمة عن التعرف الخاطئ 
لبعض ال حروف. يمكن ذكر أهمها كالآتي: 

-١5‏ طريقة مطابقة المصطلحات: في هذه الحالة تتم فهرسة المصطلحات 
بطريقة تؤدي إلى إمكانية التطابق النسبي بين الكلمات حتى في حالة وجود 
يعض الأخطاء, زكرن تعريك طلم هذه الال هو الشكل اسل 
لحروف الكلمة» بحيث يتم استعراض الكلمة عن طريق متسلسلات 
الحروف الثنائية أو الثلاثية أو الرباعية للكلمة. كمثال» عند استعراض كلمة 
«أحمد» بالتسلسل الثلاثي للحروف تصبح كالآتي: «#أح أحم Ju‏ مد#» 
بحيث يتم استعراض كل ثلاثة حروف متجاورة للكلمة وعلامة الشباك 
(#» تكون لتحديد بداية xl‏ الكلمات. في هذه الحالة» وعند التعرف 
الخاطئ على حرف الدال على أنه راء» تكون الكلمة محفوظة في الفهرس 
ci aS‏ أحم حمر مر#)؛ فعندما يتم البحث عن كلمة Xe‏ يتم 
تجهيز كلمة البحث بنفس الطريقة» فيكون التطابق بين الكلمة الصحيحة من 
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purpose sofia e عدوي عل‎ quide aid 
هذه الطريقة أثبتت فعاليتها في‎ . el | حيث إن الكلمتين تشتركان في «#أح‎ 
كثير من الأبحاث في هذا الموضوع للغات مختلفة» حيث إنها تؤدي إلى تحسين‎ 
نتائج البحث للكتب المتعرف على نصوصها ضوئيًا بشكل واضح‎ 

-yN‏ تصحيح الأخطاء في النصوص: وهذه طريقة أخرى لتحسين نتائج 
البحث» حيث يتم استخدام ناذج اللغة وبعض الطرق الإحصائية لتصحيح 
هذه الأخطاء قبل عملية الفهرسة. 

Y , ”‏ - إدخال الأخطاء على كلمة البحث: هذه طريقة بسيطة يتم فيها استخدام 
بعض المعلومات من الإحصاءات عن طبيعة الأخطاء التي يمكن أن تحدث 
في التعرف الضوئي على الحروف» ثم يتم تطبيقها على كلمة البحث التي 
يُدخلها ا مستخدم بحيث تحتوي على كل احتمالات التعرف الخاطئ على كلمة 
البحث في الكتب. يتم التعامل مع هذه الكلمات على أنها مترادفات لتحسين 
عملية البحث. كمثال did‏ عند إدخال كلمة «أحمد» في البحث» يمكن 
توقع أن تكون هذه الكلمة ڌ تم التعرف عليها خطأ في نصوص الكتب من 
بعد الإحصاءات على cue iul‏ «أخمد» » e... G2‏ فيتم اعتبار كل هذه 
الاحتمالات لكلمة «أحمد» على أنها مترادفات ليتم البحث عن Gel‏ في الوثائق. 
هذه الطريقة UT‏ أثبتت فعاليتها في تحسين نتائج البحث في كثير من الأحيان. 

هناك طرق معالجة أخرى هذه المشكلة في محركات بحث المكتبة أو الكتب» كلها 

تعتمد على حاولة تفادي الأخطاء التي تحدث في عملية التعرف QVI‏ على الحروف. 


عي سد اسل 

FE (Facebook) ner‏ تويتر Twitter‏ من ال وجود ر کات 

بحث فعالة لتَمَكّنَ المستخدم من الوصول إلى ما يحتاجه من معلومات على تلك المواقع 
تتميز مواقع التواصل الاجداعي بعدة خصائدن ا عن vg‏ جيل عملية 

استرجاع المعلومات تواجه بعض التحديات . وتتمثل هذه المخصائص فيا يلي: 
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p -١‏ المحتوى: يتميّر محتوى المشاركات على شبكات التواصل الاجتماعي بالتنوع 
الكبير ما بين مشاركات نَضّية وصور ومرئيّات وروابط خارجية. ويُضِيفٌ هذا 
التنوع GAE‏ آخر في عملية استرجاع المعلومات من مواقع التواصل الاجتماعي. 

Y‏ - الكميات الكبيرة من المشاركات: o s‏ عدد المشتركين في موقع تويتر في متتصف 
عام ۲۰۱۲ إلى نصف مليار مشترك» يقومون بإرسال ما يزيد على ٠٠١‏ مليون 
رسالة قصيرة يوميًا عبرَ الموقع . وبالنسبة لوقع فيسبوك فقد تخطّى عدد المشتركين 
المليار مشترك في أوائل عام eua Y‏ - كل ٠‏ دقيقة - وضع ما يزيد على 
مليون مشاركة على الموقع وإرسال أكثر من Y‏ مليون رسالة خاصة. ويجعلٌ هذا 
الكم المائل من المشاركات على مواقع التواصل الاجتماعيّ عملية استرجاع 
المعلومات في غاية الصعوبة؛ بل يجعل حتى في عملية عرض نتائج البحث نفسها 
Eo‏ من التحدي لكثرة وتنوع المحتوى. 

-Y‏ اللغة المستخدمة: وهي التي GE‏ في الغالب إلى العامّية. ويُعَيرُ معظم مُستخدمي 
مواقع التواصل الاجتماعي Ce‏ بداخلهم فيه| يكتبونه» ما يجعلهم في معظم الأحيان 
يعبرون ae‏ بلهجة التخاطب العادية دون اللغة الرسمية. تتضح هذه الظاهرة 
بقوة في اللغة العربية بشكل خاص بسبب تعدد لهجاتها في ختلف الأقطار العربية. 
فهناك اللهجة المصرية والشامية والخليجية وا مغربية وغيرهاء وان كانت تجمع JS‏ 
هذه اللهجات لغة رسمية واحدة. ولحن يرجد قرارق كبيرة ينها غرد ا لاستخدام 


في مواقع التواصل الاجتماعي. AÉ‏ المثال في الجدول أسفله مثالاً على تنوع 
اللهجات في اللغة العربية: 
| اللهحة الجملة | 
العربية الفصحى ماذا تريد؟ 
المصرية عایز fal‏ 
الشامية شو CJL‏ 
الخليجية ايش تبي ؟ 
المغربية ویش تحب؟ 
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يوضح الال الاختلاف الكبير بين مختلف اللهجات العربية في التعبير عن نفس 
T NT‏ هذا الاختلاف الكثير من التحديات أمام نظم استرجاع المعلومات» 
حيث تحتاج كل لهجة من هذه اللهجات إلى عمليات معالجة خاصة با. فطرق إضافة 
السوابق واللواحق في اللهجات العامية مختلفة عنها في اللغة الفصحىء كمثال D)‏ 
ألعب» في الفصحى» حيث تذهب في العاميات المختلفة إلى: «مالعبتش»» «مالعبت»» 
«مو لعبت»). وكذلك بالنسبة لمجموعة الكلمات المستبعدة الخاصة في العامّية» كمثال 
cue con «dI‏ سس مو غات له ل 

وبا أن مواقع التواصل الاجتاعيّ نفسها لم تظهر إلا في السنوات الأخيرة» OB‏ 
لحلول البحثية لتحديات عملية استرجاع المعلومات هذه المواقع ما زالت في خطواتها 
الأولى. ويستطيع المستخدم العادي الشعور بمشكلة البحث بنفسه على هذه المواقع» 
مثل: فيسبوك وتويتر. حيث يكون الوصولٌ إلى معلومة معينة في منتهى الصعوبة. 
كذلك op‏ عرض النتائج لا يؤدي إلى الوصول للمطلوب بالشكل المرضي للمستخدم. 

وعلى الرغم من هذاء فإن هناك العديد من الأبحاث لتحسين انطباع المستخدمين عن 
عمليات البحث على مواقع التواصل الاجتماعي. ويمكن تلخيص مجالات الأبحاث في 
استرجاع المعلومات من مواقع التواصل الاجتماعي في النقاط التالية: 


Y, V‏ - دراسة دوافع البحث على هذه المواقع 

كانت محاولة فهم دوافع المستخدمين للقيام بعمليات البحث على شبكات التواصل 
الاجتماعي من أقدم الدراسات للباحثين في جال استرجاع المعلومات» والموضوعات 
التي يبحثون عليها وكيفيّة مُقارنتها بالبحث على الويب. أظهرت تلك الدراسات أن 
دوافع البحث تكون في أغلب الأحيان لمعرفة آخر التحديثات والأخبار عن شخص 
أو حدث ما. وأكدت معظم الدراسات أن التحدي الأساسي في استرجاع المعلومات 
من هذه الشبكات يكون بسبب قِصّر المشاركة ولغتها. فالمشاركات تحتوي على عدد 
محدود من الكلمات بلغات دارجة وليست رسمية» فيكون العثور عليها صعبًا. وقد 
code‏ هذه الدراسات الطريقٌ لفهم عمليات البحث بشكل أحسنء كما حمّرّت لبناء 
نظم استرجاع معلومات متخصصة لتلك البيانات. 
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۷ 7 - عرض النتائج بشكل منظم 

عند البحث عن موضوعاتٍ عامّة في مواقع التواصل الاجتماعي» فإن النتائج 
تكون كثيرة جذا ومتنوعة. كمثال» عند البحث على تويتر باستخدام [هاشتاج (#088)] 
لمتابعة آخر المشاركات عن موضوع معيّن» تكون النتائج أحيانا بالآلاف» نما يجعل 
متابعة المشاركات المتعلقة عمليّة صعبة. بالإضافة إلى أن هذه المشاركات تنقسم إلى 
آراء نصية وأخبار وروابط ومرئيّات وصور وغيرها. أدى ذلك إلى استحداث وتطوير 
بعض النظم الخاصة لعرض النتائج بشكل منظم ومختصر للمستخدمين ليتسنى هم 
معرفة المعلومات عا يبحثون عنه. 5 A22‏ «تويت موجز) (TweetMogaz)‏ أحد هذه 
الأمثلة للمواقع المتخصصة في البحث في المشاركات (التغريدات) العربية على موقع 
تويتر. SS,‏ طريقة البحث وعرض النتائج تختلف كلية عن البحث على موقع تويتر 
نفسه. aee‏ يتم البحث عن طريق تحديد كلمات البحث؛ وفي نفس الوقت يتم تحديد 
المدة الزمنية لاسترجاع التغريدات ذات الصلة ف خلاها؛ ثم gl‏ الفارق الأساسي 
(في طريقة عرض النتائج)» حيث يتم معالجة كل المشاركات المسترجعة لاستخراج 
المشاركات الأكثر انتشارًا في الفترة الزمنية المحددة» وأيضا المشاركات الفكاهية» 
والمرئيّات والصور الأكثر تداولا عبر المشاركات» والأخبار والمقالات التي يتم بها 
المستخدمون عبر مشاركاتهم. 

وتعطي هذه الطريقة المستخدم صورةً كلية fe‏ ينشره مُستخدمو المواقع الاجتماعية 
عن موضوع البحث؛ وهذا يعطي فكرة عامّة عن الرأي العام بالنسبة لموضوع ite‏ 

/ا, -Y‏ متابعة موضوعات بح (Filtering Information)‏ 

وهو من أكبر تطبيقات علم استرجاع المعلومات» حيث يكون موضوعٌ البحث 
ثابتا. ويكون دور نظام استرجاع المعلومات هو تصنيف الوثائق والمستندات إلى ذات 
صلة أو غير ذات صلة بدلا من الترتيب. ويستخدك هذا التطبيق في مجالات كثيرة» من 
أهمها: مُتابعة موضوعات البحث على شبكات التواصل الاجتماعي. 

ومن أمثلة ذلك: قيام المستخدم بتحديد موضوع بحث عن شخص أو حادثة cna‏ 
ثم يقوم نظام البحث بتصنيف المشاركات الجديدة التي تظهر على أنها ذات صلة el‏ لا 
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ثم يتم عرض المشاركات ذات الصلة 3G SI‏ للمستخدم في حين ظهورهاء lies‏ 
يكون متابعا للموضوع المتحرّى عنه. وتتم عملية التصنيف بشكل dI‏ بناءَ على نموذج 
تصنيف مبنىٌ من بعض الأمثلة الإيجايبة LEM s‏ للمشاركات ذات الصلة بموضوعات 
p‏ 


V‏ ,£- التنبؤ بالكوارث 

يعد التنبؤ بالكوارث من أهم التطبيقات التي يتم دراستها في استرجاع المعلومات 
من شبكات التواصل ee YI‏ بدأ هذا الموضوع bleal Jb‏ كبيرًا بعدعام 25١١١‏ 
حيث حدثت ELA‏ كبيرة حول العالم» كان لمواقع التواصل الاجتماعي تويتر 
وفيسبوك oa etes, s‏ آمثلة ذلك JE‏ عايض Ve‏ ۹ ۲ ویر Yir Ges ulols‏ 
وإعصار ساندي في أمريكا 5 والقووات AE‏ م ا لهاو AE‏ فى 
اليونان وإسبانيا Y‏ 


لقد اكتشف الباحثون الدورٌ الخطير لمواقع التواصل الاجتماعيء والتي تتحول وقت 
الأزمات بشكل خاص إلى مكان للاستغاثة والتنظيم ونقل الأخبار بشكل تعجز عنه 
وسائل الإعلام العادية. كل هذا دفع الكثيرين من الباحثين إلى عمل دراسات لمعرفة 
كيفية التنبؤ بالكوارث والأزمات عن طريق متابعة هذه المواقع وما يكتب عليهاء بحيث 
تكون سببًا للتجهيز المسبق لتفادي الخسائر. بدأت هذه الأبحاث تُدعَم من cil‏ 
الدولية» كالبنك الدولي والأمم المححدة"» للوصول إلى طرق تلقائية لقياس أشياء 
اجتاعية لمناطق العام المختلفة من هذه المواقع» مثل قياس مستويات الفقر والمرض 
والبطالة» بحيث تصل المساعدات الدولية إلى مستحقيها. 

إن تقنيات استرجاع المعلومات لشبكات التواصل الاجتاعي لا تزال في بداياتهاء 
والكثير من التطوير مطلوب لمواكبة الزيادة المطردة هذه الشبكات التى لا يختلف اثنان 
على أهميتها في الحياة اليومية لمعظم مستخدمي الشّبكة العنكبوتيّة. l‏ 


l- http://europeandcis.undp.org/blog/2013/01/11/can-big-data-help-deliver-better-opera- 
tional-results/ 
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(Semantic Search) JYI البحث‎ -A 

E‏ البحت LAY‏ خوارزمات البحث التي تأخذ في الاعتبار معاني الكلمات 
والمعنى السياقيّ للمصطلحات؛ وليس فقط النّمط الماثل للحروف. وعلى الرغم من 
الجاع اال eis en‏ بعك ااريب لوسرو ادن إلا اهما ebat el‏ 
بصورتها الحالية ما زالت تُعانى قصورًا يتمثل في غياب فهم كلمات البحث ومعناها 
في السياق. ومن المتوقع أن يقوم البحث dl‏ بتعويض هذا النقص من خلال 
استخدام خوارزمات البحث التي تأخذ في الاعتبار معاني الكلمات والمعنى السياقيٌ 
للمصطلحات مما يبشر بفرصة أكبر لزيادة دقة نتائج البحث والحصول على المزيد من 
النتائج ذات الصلة. 

لمن ادن هي معني SE‏ البحث وفهم معنى الكلمات الموجودة في مصادر 
البحث. يتوقع أن تكون النتائج التي تنتج عن عملية البحث متصلة بصورة أكبر 
بكلمات البحث وأن المصادر التي لم يكن في الإمكان الحصول عليها في نتائج البحث 
لعدم احتوائها بصورة مباشرة على كلمات البحث - بالرغم من آنا ذات علاقة بها - 
سوف تظهر في المعلومات التي تم استرجاعها. 

ونظرا لما يبشر به البحث YE‏ من ثورة في محال استرجاع المعلومات فقد قامت 
الشركات المنتجة لمحركات بحث الويب ذات الشهرة الواسعة» مثل: «جوجل» و 
«ياهو» و«بينج» .. باتخاذ الخطوات اللازمة نحو الاتجاه إلى هذه التقنية. 

- أمثلة للبحث Qd.‏ 

إذا كان هناك حرك بحث يستخدم خوارزمات البحث op JYI‏ إدخال سؤال 
مثل «من هي زوجة لويس الرابع عشر» في صندوق البحث لهذا المحرك سوف ينتج عنه 
أن يقوم هذا المحرك بعرض نتائج تتعلق ب «مارى أنطوانيت» في النتائج ذات الصلة. 
وهذا دليل على أن هذا المحرك يستخدم البحث QUE‏ وأنه قد قام بتحليل كلمات 
البحث وتبين له أن المستخدم يريد استرجاع معلومات عن زوجة لويس الرابع عشر 
وليس لويس الرابع عشر نفسه. 
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كذلك» عند قيام المستخدم بإدخال عبارة «هواتف خلوية» في صندوق البحث 
فسوف يقوم المحرك بعرض نتائج تحتوى على عبارات لما نفس المعنى والدلالة مثل 
«ال هواتف النقالة» و «الموبايل» و «المحمول». 

۸ "7- كيفية عمل حر البحث GY‏ 

هناك طريقتان تستخدمان في عمل محرك البحث NI‏ 

* الترميز: وهو العنونة الدلالية للوثائق والكلمات والوحدات النصية الموجودة 
على صفحات الويب باستخدام الأنطولوجيا وإحدى لغات الويب «QI‏ 
مثل (OWL: RDFS: RDF: XML)‏ ولا يتم عرض هذا الترميز لمتصفح 
الويب ولكن يمكن لمحرك البحث أن يستخدمه أثناء عملية الفهرسة بغرض 
الاستفادة من هذه المعلومات عند إجراء عملية البحث الدلالي. 

* استخدام الذكاء الاصطناعيٌ في فهم Lue‏ من السياق: فمثلا إذا رأى مرك 
البحث في صفحة على الويب أن ماري أنطوانيت هي زوجة لويس الرابع عشر 
فإنه يستنتج أن لويس الرابع عشر هو زوج ماري أنطوانيت. ويكون هذا بمثابة 
علاقة بين كلمتى البحث يمكن الاستفادة متها عند تكوين الفهرس؛ وبالتال 
l E ET E‏ 

-Y , ۸‏ تطبيقات البحث الدلالّ في اللغة الإنجليزية 

حيث إن البحث GYI‏ قد عَنِيَ بتغيير الطريقة التي يتم بها البحث إلى الأحسن» 

لذلك فإن كثيرًا من المجهودات قد بُذلت بغرض إنتاج عدد من التطبيقات والأنظمة. 
ويُعتير )2008 (Wei et al‏ مرجمًا I>‏ لبعض هذه الأنظمة؛ SHOE) A] (S‏ 
٠٠٠١ (Heflin & Hendler‏ واحدًا من أقدم محركات البحث YII‏ ويسمح 
للمستخدمين ببناء تساؤل منطقيّ عن طريق الأنطولوجيات. وبذلك يتطلب هذا 
النظام أن تكون المصادر التي يتم البحث فيها قد تم ترميزها / عنونتها Co‏ مسبقا. 


À=‏ ةب 
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ومن أمثلة كات البحث QVI‏ - كذلك: 

AXI (SHOE) ٠‏ واحدًا من أقدم محركات البحث YI‏ ويسمح للمستخدمين 
ببناء تساؤل منطقيٌّ عن طريق الأنطولوجيات. وبذلك يتطلب هذا النظام أن 
تكون المصادر التي يتم البحث فيها قد تم ترميزها / عنونتها NS‏ مسبقًا. 

(KIM, OWLIR) °‏ وتم الاعتماد Ce‏ على استخدام الاستدلال المنطقيّ وطرق 
استرجاع المعلومات التقليدية معا. ففي حالة ما م يتم الحصول على نتائج باستخدام 
البحث GYI‏ يتحول النظام إلى الطريقة التقليدية في استرجاع المعلومات. 

(Aqualog) °‏ وهو نظام للإجابة عن الأسئلة باستخدام NN JI‏ 

هذا بالإضافة إلى محركات بحث الويب المذكورة «Uil‏ مثل: «جوجل» و «ياهو) 

و«بنج»؛ والتي اتجهت بالفعل إلى استخدام خوارزمات البحث الدلالي. 

۸ , - تطبيقات البحث الدلال فى اللغة العربية 

لا JL‏ الأبحاث iall‏ باسترجاع المعلومات العربيّة حدودةً إلى درجةٍ كبيرة. ومنها 

eG .(El-Beltagy et al 2003) °‏ البحث باستغراق إضافة بيانات تكميلية إلى 
قصاصات (Snippets)‏ المعلومات الزراعية في إحدى التجارب واستخدامها 
لتحسين استرجاع القصاصات التي ها صلة بكلمات بحث المستخدم. 

(Zaidi and Laskri 2005( °‏ في هذا العمل تم استخدام أنطولوجيا خاصّة 
بالحقل القضائئٌ (Legal domain)‏ مع آلية استرجاع المعلومات. 

.(Qawaqneh, 2) 9‏ يقدم طريقة لترتيب النتائج باستخدام مبداً 
تكرار مبادئ الأنطولوجيا التي تظهر في الوثائق. 

.(Semahtic MediaWiki) *‏ قامت الدّراسة بإضافة اللغة العربية إلى قائمة 
اللغات التي يمكن أن تتعامل مع الترميز GYI‏ عند إنشاء صفحات Wiki‏ 
الرّة لها. وبالتالي أتاحت للناشرين أن يقوموا بنشر محتوى ويب دلالي. 
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* ومن ناحية أخرى» cel‏ بعض الشركات التي تعمل في مجال البحث على 
الويب أنها سوف تقوم بتقديم محركات بحث LIS‏ للغة العربية. ومن أمثلة 
ذلك: .(The next web) ; (Kngine)‏ 


۹- أفكار تصلح للأطروحات العلميّة (الماجستير والدكتوراه) 


إحدى الأفكار التي تصلح OM‏ تفرز رسائل ماجستير» هي إعداد مجموعات 
اختبارية للبحث. يمكن أن يقوم الباحث باختيار إحدى مجموعات الوثائق ذات 
الطابع المحدد والقيام بتجميع مجموعة الوثائق وترتيبها بشكل منظم. ينبغي مراعاة 
الشروط والخصائص التي تم توضيحها آنفا في المجموعات الاختبارية» بحيث يكون 
عدد الوثائق مناسبًا لطبيعة المجموعة» فلا يقل عن عشرات الآلاف. 

وينبغى أيضًا أن تكون موضوعات البحث الاختبارية مناسبة. ويفضل في حالة بناء 
المجموعة الاختبارية عن طريق فريق بحث واحد أن يقوم بالاستفادة من متطوعين 
لاختيار موضوعات البحث الاختبارية» وأيضًا لتحديد الوثائق ذات الصلة. لتفادي 
انحياز نتائج البحث إلى طريقة بحث واحدة» يفضل استخدام محركات بحث ختلفة» 
حيث يتوفر عد منها مجانا من أجل الأغراض البحثية مثل: «Lucene «Lemur Indri‏ 
Terrier‏ وغيرها من محركات البحث المجانية التي يستطيع الباحث أن يستخدمها من 
أجل فهرسة مجموعة الوثائق واستخدامها في البحث عن موضوعات البحث بناذج 
وآليّات بحث مختلفة لمحرك البحث الواحد. بهذا يمكن للباحث استخدام عملية تجميع 
النتائج بسهولة من أجل تحديد ما OS‏ ذا صلة بطريقة علمية سليمة ودون انحياز. 

بالنسبة لمجموعة الوثائق التي يمكن تجميعها وتجهيزهاء يمكن أن تكون: 

* صفحات ويكيبيديا: يمكن تحميل كل مقالات ويكيبيديا لأي من اللغات من 

على الموقع نفسه» ثم اختيار موضوعات البحث المناسبة لها وتحديد ما كان ذا 
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duis *‏ مجال معين أو في تخصصات مختلفة. يمكن أن تكون الكتب الإلكترونية 
في الأصل؛ ويمكن أن تكون من التي تم التعرف على محتواها آليّاه ولكن في هذه 
الحالة تكون طرق المعالجة مختلفة Cs‏ أسلفنا. 

* مقالات علمية أو أطروحات علميّة (ماجستير ودكتوراه): يمكن أن تكون 
مجموعات الوثائق ذات طابع علمي في جال معين» ويتم اختيار موضوعات البحث 
$C;‏ على ذلك. ولكن في هذه ULT‏ ينبغي مراعاة أن من يقوم بتحديد ما كان ذا صلة 
على علم بهذا Jedi‏ أو على الأقل لديه بعض الخلفية عن المجال العلمي. 

* مقالات إخبارية: من نفس المصدر كمقالات إحدى الجرائد لأعوام متعددة 
أو من مصادر إخبارية مختلفة. يمكن أن تكون المقالات من مجال إخباري 
معين» كالرياضة أو السياسة أو الفنون أو غيرها. المهم في أي حالة هو اختيار 
موضوعات البحث الاختبارية بها يناسب طبيعة مجموعة الوثائق. 

e‏ مجموعات من الصور أو المرئيّات: تتمثل الطريقة الأسهل في اختيار المجموعات 
التي تكون الصّوّرٌ أو المرئيّات فيها مصحوبة بمُسمى أو شرح لمحتوى هذه 
الصور والمرئيّات» مثل الصور على موقع «فلیکر Flickr‏ والمرئيّات على موقع 


. (Youtube «يوتيوب‎ 

Y, 3‏ استرجاع المعلومات من شبكات التواصل الاجتماعي 

كما أوضحنا مسبقاء فإن مجال البحث في هذا الموضوع مازال في إرهاصاته. وهناك 
الكثير من الأفكار التي يمكن تطويرها لخدمة استرجاع المعلومات من مواقع التواصل 
الاجتماعي وللُهجات الدّارجة بشكل عام. 

و يمكن للأفكار البحثية X AL‏ من دراسة هذا الموضوع أن تكون أطروحات 
ماجستير أو دكتوراه في co Nue‏ مختلفة. 

ele pó Jl ومن هذه‎ 


* بناء مجموعة اختبارية لاسترجاع المعلومات للمواقع الاجتماعية: ينبغي أن تُراعى 
بشدة الطبيعة الخاصة هذه البيانات في كيفية اختيار الموضوعات وكيفية كتابتها. 
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كما أن كيفية اختيار ما كان ذا صلة يتطلب جهدًا أكبر في معالحة البيانات لبناء 
محركات بحث مختلفة لتنفيذ عملية التجميع للنتائج أو بحث طرق أخرى من 
أجل تحديد ما كان ذا صلة من الوثائق (مشاركات المستخدمين في هذه الحالة). 

* محاولة استنتاج طريقة معرفة أساليب الكتابة المختلفة للموضوعات الاجتماعية 
وتشكيل طريقة ممنهجة لتوحيد طرق الكتابة التي من المتوقع أن تتعدى توحيدٌ 
بعض الحروف أو تجريد الكلمات؛ CS‏ يمكن تحديد مجموعة جديدة من الكلمات 
T‏ ات ERE VU‏ 

* تصنيف المشاركات التي يتم البحث عنها بطرق مختلفة» مثل تصنيفها حسب 
الموضوع: سياسي» اجتماعيء ترفيهي ...» أو تصنيفها حسب حالة الكاتب: 
سعيد» حزين» غاضب ... وغيرها من التصنيفات. كل هذا يمكن أن يفيد 
y‏ في القدرة على استرجاع المعلومات. 

* تجميع المشاركات التي تتناول نفس الموضوع GN‏ وعد هذا مفيدًا للغاية كأحد 
الخصائص oid‏ الموقع الاجتماعية» حيث سيكون من المفيد للمستخدم أن يجد 
كل المشاركات التي تتحدث عن نفس الموضوع مجمعة تلقائيا. إن بناء نظام يقوم 
بهذا يمكن أن يكون أطروحة دكتوراه» ويمكن أيضًا عمل أطروحة ماجستير في 
تجهيز البيانات ومجموعة اختبار تساعد على بناء نظام كهذا. 

4 الصفحات الشخصية 

الصفحة الشخصية أو ما يعرف بالكدوينات الالكترونة (Blogs)‏ هن ضفحات 

عاج الین كدت كل تبحس doas‏ عل Sen.‏ برقالا هل ssl ad y‏ 
المستخدمة في هذه التّدوينات تلكٌ التي تستخدم في الصفحة الاجتماعية» حيث يمكن 
أن تاد أشكالاً خدلفة. يمكق أن تكرن إحدى أنكان الاجستر أو الدكتوراة اء 
مجموعة اختبارية هذه الأشكال من الصفحات وتطوير طرق استرجاع فعالة ها. 


4 - استرجاع المعلومات عبر اللغات 
من أهم الموضوعات البحثية في علم استرجاع المعلومات. والهدف هو كتابة موضوع 
البحث بلغة ماء وتكون المعلومات والوثائق المسترجعة من لغة أخرى. 
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الأبحاث في هذا الموضوع بالنسبة للغة العربية محدودة جدًا وتركز على البحث بين 
اللغة العربية والإنجليزية. يمكن بناء cole gas‏ اختبارية لاختبار البحث عبر اللغات 
المختلفة مع اللغة العربية؛ ويمكن عمل هذا بشكل بسيط عند بناء أي ie pat‏ بحث 
عادية بالقيام بترجمة موضوعات البحث الاختبارية ترجمة يدوية إلى لغات أخرى لتكون 
مُعَدَةَ لاختبار البحث عبر اللغات؛ كا يمكن بناء مجموعات اختبار خصصة للبحث 
عبر اللخات» وهذا بالنسبة للمجموعات التي تحتوي على وثائق من لغات متعددة. 


-٠‏ من المواقع الإلكترونيّة التعليمية والإرشاديّة 


١‏ - حر كات بحث iole‏ لغرض البحث العلمى: 
e Indri, Lemur: http://www.lemurproject.org/‏ 
e Lucene: http://www.getopt.org/luke/‏ 
٠ Terrier: http://terrier.org/‏ 
٠ Solr: http://lucene.apache.org/solr/‏ 
-Y‏ قوائم بالكلمات المستبعدّة للغات متعددة: 
http://members.unine.ch/Jacques.savoy/clef/index.html‏ * 
Y‏ أدوات تجريد الكلمة من السوابق واللواحق للغات مختلفة: 
e http://snowball.tartarus.org/‏ 
x‏ مواقع بحث لشبكات التواصل الاجتماعى: 
e http://www.tweetmogaz.com‏ 
http://www.topsy.com‏ * 


* http://bottlenose.com 
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الفصل الثاني 
الترجّمة ALIE‏ 


د. أحمد رافع 


Y‏ - نظرة Ale‏ موجزة. 
Y‏ تعريف بأهم المصطلحات المستخدّمة في الترجة الآلية. 

Žada JI وار‎ UII Re AI قات‎ 

-٤‏ البرامج والموارد اللغوية المرتبطة بالترجة الآلية. 

- أهم المواقع والأدوات المساعدة للموارد والتقنيات مفتوحة المصدر. 
1- أفكارٌ لتطوير مُدَوّنات IA)‏ مُستقبليّة لأهداف ie JI‏ الآليّة 
ملحق - الأساس G BII‏ لبناء نظام ترجمة Qf‏ إحصائيٌ. 
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في عام £4 YA‏ بدأت أبحاث ia Il‏ من الرُوسية إلى الإنجليزية في أعقاب الحرب 
العالمية الثانية. وفي عام ١405‏ تم استحداث أول نموذج لنظام الترجمة الآلية من 
الروسية إلى الإأنجليزية. وبعد اثني عشر عاما من البحث صدر تقرير من اللجنة المشكلة 
من قبل الهيئات الحكومية المانحة لأبحاث الترحمة الآلية في الولايات المتحدة الأمريكية 
بعدم جدوى القيام بالأبحاث في هذا المجال. وقد كان أثر هذا التقرير سيئا على تقدم 
البحث والتطوير في مّيدان الترجة الآلية. لذلك اتجبهت الأبحاث في السبعينيّات من 
القرن الماضي إلى كندا وأوروبا الغربية. وني الثانينيّات بدأت تظهر تقنيات المنهج 
التحويلى وقواعد المعرفة؛ كما ظهرت تقنيات Re JE‏ القائمة على أسس إحصائيّة في 
التسعينيّات. وقد استّخدِمت هذه التقنيات في الترجمة من العربية إلى الإنجليزية بكثرة 
في بداية الآلفية الثانية؛ وذلكٌ لاهتمام الولايات المتحدة بالترجمة من اللغة العربيّة بعد 
أحداث سبتمير Yit Y‏ 

يُقَدُمُ هذا البابٌ المفاهيم والمصطلحات الأساسية للترجمة الآلية» ويستعرض الطرق 
الرئيسة لها بصورة مبسطة مع إعطاء أمثلة توضح الفكرة العامة لكل طريقة. ويتكون 
UI‏ من سبعة أقسام على التّحو التالي: 

ا حيقدم القسم الأول نظرة غامة مو جزة عن الطرق Sl 2I‏ للترجة الآلية. 
وهي: طريقة قائمة على قواعد لغوية» وطريقة قائمة على استخدام أمثلة لجمل 
سبق ترجمتهاء وطريقة قائمة على أسس إحصائيّة باستخدام e$‏ كبير من 
النضوص المتّرحمة. 

-١‏ ويُعَرّفٌ القسم الثاني cal‏ المصطلحات المستخدمة في كل تقنية من تقنيات 
e JI‏ الآلية المشار إليها في القسم الأول. 

۳-أمًا القسم الثالث LAS‏ الصوءَ على تقنيات ie UE‏ الآلية» وآخر التوجهات 
البحئيّة؛ Lo pras‏ المنهج القائم على مستوى ترجمة بناء هرمي للعبارة والمنهج 
القائم على مستوى ترجمة لغة المصدر إلى بناء نحوي للغة الهدف. كذلك يعنى 
باستخدام تقنية التعلم العميق للترجة الآليّة. 
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Car f‏ القسم الرابع البرامج اللغوية المطلوبة لنظم ia A‏ الآلية القائمة على 
القواعد اللغوية ونظم الرّحمة الآلية القائمة على الأمثلة ونظم الترحة الآلية 
القائمة على أسس إحصائية. 

i-o‏ القسم الخامس فيستعرض أهم المواقع والأدوات المساعدة للموارد 
والتقنيات مفتوحة المصدر. 

eA‏ القسم السادس أفكارًا لتطوير مُدَوَّناتٍ ثنائيّة ali‏ باستخدام المادة 
المترحمة امتاحة على شبكة الويب» مثل مواقع الأمم المتحدة. وكذلك إضافة 
قيمة للمدَوّنات ثناتيّة اللّغة المتاحة لتحسين جودة نموذج الترجمة الناتج عن 
هذه oU SA‏ 

١-وأخيرّاء AE‏ القسم السّابع ببليوجرافيا مرجعية» تشتمل على eget‏ من 
المراجع التي تعرض للمفاهيم والمصطلحات الرئيسة في الترجمة والترجمة 
الآلية» ولتاريخ الترجمة الآلية» وكيفيّة التعرّف على الاستعارات والتعبيرات 
المجازية وكيفية ترجمتها؛ بالإضافة إلى تقنيات Re AE‏ الآلية» وآخر cole yi‏ 
البحثبّة» وبعض نظم الترجمة الآلية من وإلى اللغة العربية. 


$22 4 isle نظرة‎ - Y 
حمة الآلية - عُمُومًا - إلى أربع طرق رئيسية: طريقة قائمة‎ UE يمكن تصنيف طرق‎ 
على قواعد لغوية» وطريقة قائمة على استخدام أمثلة لجمل سبق ترجمتهاء وطريقة قائمة‎ 
وطريقة قائمة على‎ ce A tad) إحصائية باستخدام کم كبير من‎ mm على‎ 

استخدام تقنية التعلم العميق للترجمة الآلية. 

ويمكن تصنيف مناهج الترجة الآلية القائمة على القواعد إلى: المنهج المباشر والمنهج 
التحويلي» ومنهج اللغة الوسيطة. والفرق بين هذه المناهج هو مقدار التحليل اللغوي 
الذي يتم عمله على لغة المصدر وتحويل ناتج هذا التحليل إلى مفردات وقواعد اللغة 
المستهدفة ثم توليد لغة الهدف باستخدام قواعد الصَّرف وبناء لغة الهمدف. 
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لا عرس واس ا pone‏ 
e‏ ا نجه با ل ع 
الاعتقاد بأن الناس تقوم بالترجمة عن طريق تحليل الجملة إلى عبارات ثم ترجمة هذه 
العبارات وتجميعها في جملة واحدة. 

يقة التَرّجمة القائمة على أسس إحصائية تستخدم فيها النماذج الإحصائيّة معلماتها 
مشتقة من تحليل كم كبير من النصوص - ثنائية اللغة وأحادية اللغة. وقد CSA‏ 
فكرة ia A‏ الآلية الإحصائيّة في عام ۱۹٤۹‏ م» عندما SS‏ بعض العلماء في استخدام 
نظرية المعلومات وفك الشقرة لكتابة يرا مج الخواسيب لترجمة النص من لغة طبيعية إلى 
IBM‏ بإعادة النظر في فكرة استخدام الأساليب الإحصائيّة m AU‏ وشجعهم على 
ذلك الزيادة في قوة الحوسبة» وتوافر كم كبير من النصوص المترجمة» وعدم إحراز تقدم 
ملحوظ في وسائل الترحة الأخرى. وكانت طريقة الترحة القائمة على أسس إحصائيّة 
هي النموذج الأبرز للترجمة الآلية في تسعينيّات القرن العشرين والعقد الأول من القرن 
الحادي والعشرين لأسباب عديدة منها: دقة cim dl‏ وإمكانية تحسين الترجة di.‏ 
مجهود أقل من الطرق الأخرى» وكذلك سرعة بناء برنامج التَّرّجمة cold‏ متعددة متى 
توافر كم كبير من النصوص المترجمة للغتين. 
في بدايات العقد الثاني من القرن الحادي والعشرين ظهرت تقنية استخدام التعلم 
العميق للترجمة الآلية؛ وقد أحرزت تقدمًا في استخدام الأساليب الإحصائيّة. 


Y‏ تعريف بأهم المصطلحات المستخدّمة في AI‏ جة الآلية 

هناك بعض المصطلحات المستخدمة في كل تقنية من تقنيات الترجة الآلية التي 
سبقت الإشارة إليها في القسم السابق (التقنية القائمة على قواعد لغوية» والتقنية القائمة 
على استخدام أمثلة الجمل سبق ترجمتهاء والتقنية القائمة على أسس إحصائِيّة باستخدام 
كم كبير من النصوص Ge AM‏ 


ex 
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V, Y‏ المصطلحات المستخدمة فى ia JUI‏ الآلية القائمة على القواعد اللغوية 
منهج ia A‏ المباشرة :CApproach Direct)‏ 
منهج A‏ حمة التحويل (Approach Transfer)‏ : 
ويعني تحليل ile‏ لغة المصدر ثم القيام بتحويل ناتج هذا التحليل إلى ما يقابله بلغة 
الهدف» وأخيرا توليد جملة لغة الهدف. 
منهج EU‏ جمة باستخدام اللغة الوسيطة :CApproach Interlingua)‏ 
ويعني تحليل جملة لغة المصدر إلى لغة وسيطة تعتمد على مجال التَرجمة وتعبر بطريقة 
منضبطة عن المعاني التي تحتويها جملة لغة المصدر مما يسهل توليد الجملة الممثلة باللغة 
الوسيطة إلى أي لغة أخرى. 
قواعد اللغة الغير معتمدة على السياق (Grammar Free Context)‏ وتتكرَّ ن من: 
٠‏ مجموعةمن الرموز النهائية؛ وتمثل مفردات اللغة (Terminals)‏ . 
° مجموعةمن الرموز الغير Js tiske‏ الوحدات البنيوية للغة .(terminals- Non)‏ 
ot‏ مجموعة من القواعد التى تتكون من جانب أيمن وجانب أيسر. الجانب الأيمن 
ينوي على رمز غير iile‏ واحدء والجانب الأيسر يحتوي على مجموعة من 
الرموز الغير نبائية والرموز النهائية (Production Rules)‏ . 


* رمز غبر نہائی ابتدائى (Starting Symbol)‏ 

-Y , Y‏ المصطلحات المستخدمة في JI‏ مة الآلية القائمة على استخدام أمثلة 
مدونة ثنائية اللغة (Bilingual Corpus)‏ : 
هي مجموعة كبيرة من النصوص بلغتين» إحدى هاتين اللغتين يطلق 
عليها لغة المصدر والأخرى يطلق عليها لغة الهدف. مجموعة النصوص 
بلغة المدف هى ترجمة مجموعة النصوص بلغة المصدر دون أن تكون هناك 
محاذاة بين الجمل في مجموعتي النصوص. 


ب 
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مدونة ثنائية اللغة متوازية :(Parallel Bilingual Corpus)‏ 
هي مدونة ثنائية اللغة» كل جملة بلغة الهدف تشير إلى جملة مكافئة ها بلغة المصدر. 
برنامج التطابق :(Matching Module)‏ 
هو البرنامج الذي يحاول العثور على أكبر عبارة في الجملة المدخلة تتطابق 
مع الأمثلة الموجودة في نصف المدونة الثنائية المتوازية المكتوبة باللغة التي 
يراد ترجمتها. 
بر نامج التعرف :(Identification Module)‏ 
هو البرنامج الذي يحاول تحديد أفضل جزء يمكن اعتباره ترجمة للعبارة التي تم 
العثور عليها في الأمثلة الموجودة في المدونة الثنائية المتوازية في الجملة المقابلة ها. 
برنامج تجميع العبارات :(Assembling Module)‏ 
هو البرنامج الذي يحاول تجميع العبارات المترجمة لتكوين أفضل جملة. 

١, Y‏ - المصطلحات المستخدمة في AI‏ هة الآلية القائمة أسس إحصائيّة 
مدونة أحادية اللغة :(Mono Lingual Corpus)‏ 
مجموعة كبيرة من النصوص بلغة واحدة. 
:(Aligned Bilingual Corpus) RU E‏ 
هي مدونة ثنائية اللغة» كل كلمة في جملة بلغة الهدف تشير إلى كلمة أو أكثر 
في الجملة المكافئة U‏ بلغة المصدر. 
نموذج إحصائي للترجمة «(Statistical Translation Model)‏ 
مجموعة من الاحتمالات المشروطة لترجمة كلمة أو عبارة من لغة المصدر إذا 
أعطيت كلمة أو عبارة من لغة AM‏ 
نموذج إحصائي للغة «(Language Model)‏ 
مجموعة من الاحتالات المشروطة لظهور كلمة إذا ظهرت كلمة أو عدة 
كلات سابقة ها. 


E 
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قواعد السياق الحر المتزامن (Synchronous Context Free Grammar)‏ : 
كل قاعدة من هذه القواعد تتكون من جانب أيمن يعبر عن مكون نحوي» 
وجانب أيسر يُمَّثل مجموعة من الكلمات أو المكونات النحوية الأقل تعقيدا 
من الجانب الأيمن بلغة المصدر والمكافئ لا بلغة الهدف. ويتم توليد هذه 
اله افده ذه Al gto AGE‏ رفح اذيك 

برنامج فاك الشفرة :(Decoder)‏ 

برنامج يستخدم نموذجًا إحصائيًا للترجمة ونموذجًا إحصائيًا للغة الهدف 
ليولد لغة الهحدف من لغة المصدر. 

Word based) الإحصائى القائم على مستوى ترجمة الكلمة‎ ie jJ منهج‎ 
: (Statistical Machine Translation 

المشروطة فيه لترحمة كلمة من لغة المصدر إذا أعطيت كلمة من لغة الحدف. 
منهج ia I‏ الإحصائي القائم على مستوى ترجمة العبارة Phrase Based)‏ 
(Statistical Machine Translation‏ : 

المشروطة فيه لترجمة عبارة من لغة المصدر إذا أعطيت عبارة من لغة الهدف. 
منهج ix JE‏ الإحصائي القائم على مستوى بناء هرمي للعبارة 
:(Hierarchical Based Statistical Machine Translation)‏ 
قواعد السياق الحر المتزامن. 

منهج الترجمة الإحصائي القائم على مستوى ترجمة لغة المصدر إلى بناء نحوي 
للغة الحدف (Syntax Based Statistical Machine Translation)‏ 
هو المنهج الذي يستخدم نموذجًا إحصائيًا للترجمة مكوّنًا من قواعد تربط 
بين الكلمات والعبارات والجمل من لغة المصدر مع الأشجار البنائية الناتجة 
عن التحليل اللغوي للجمل على جانب لغة الهدف. 


"m 
































هذه الطبعة إهداء من المركز 
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Y‏ , £ - المصطلحات المستخدمة في SII I‏ القائمة على التعلم العميق 
خلية عصبية (Neuron)‏ 
هي وحدة حاسوبية لها عدد من المدخلات ومخرج واحدء قيمته هي دالة في 
قيم مدخلاته. 
شبكة عصبية (Neural Network)‏ 
هى مجموعة من الخلايا العصبية» مرتبة في طبقات» لما عدد من المدخالات 
منهج EU‏ جمة باستخدام الشبكة العصبية (Translation Machine Neural)‏ 
هو المنهج الذي يستخدم شبكة عصبية في الترجمة. 


Machine Translation using) gs) باستخدام التعلم‎ ie JI 





(Deep Learning 
هو المنهج الذي يستخدم شبكة عصبية ذات طبقات متعددة» ويستخدم‎ 
أحيانًا مصطلح التُرجمة باستخدام الشبكة العصبية للدلالة على نفس المنهج.‎ 
(Word Vector Rpresentation)«2- تمثيل الكلمة في‎ 

هي طريقة لتمثيل الكلمة في e‏ رياضي عن طريق السّياق الذي تظهر فيه 
الكلمة. 

(Model Sequence Word) نموذج تسلسل الكلمات‎ 

في سياق الترجمة الآلية؛ هو تذكر تسلسل مجموعة من الكلمات في لغة مع 
ترجتها إلى تسلسل من الكلمات في لغة أخرى. 

(Recurrent Neural Network) lie imas شبكة‎ 

هي شبكة معالية من الوحدات؛ تشتمل كل وحلة e le‏ عدد عدذ 
من الخلايا العصبية. ويكون لكل وحدة عدد من المدخلات وعدد من 
المخرجات. ونّضافٌ محرجات كل وحدة إلى مدخلات الوحدة التي تليها. 
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ie I تقنيات الَرجمة الآلية وآخر التوجُهات‎ -Y 


X JI - V, Y‏ الآلية القائمة على القواعد اللغوية 
الأقسام الفرعية التالية تصف ثلاثة مناهج لاستخدام القواعد اللغوية في e AI‏ 
المنهج الأول هو ما يطلق عليه منهج الترجمة c AU‏ والمنهج الثاني هو ما يطلق عليه 
الترجمة باستخدام القواعد التحويلية» أما المنهج الثالث فهو ما يطلق عليه I‏ من 
خلال تحويل جمل لغة المصدر إلى لغة وسيطة. والشكل )١-1(‏ يوضح الفروق بين 
المناهج الثلاثة من خلال رسم تخطيطي. 
* منهج التَّرّجمة المباشر 
منهج الترجة المباشر يقوم أساسا على استبدال كلمة مقابل كلمة بين زوج من 
اللغات باستخدام قاموس ثنائي اللغة واستخراج مقابلها من اللغة المستهدفة. 
وعيوب هذا النظام عدم قدرته على تحليل البنية النحوية أو العلاقات الدلالات 
في جمل الإدخال ما يسفر عن قلة جودة الترجمة. كا أن بناء القاموس ثنائي اللغة 
يجب أن يحتوي على كم كبير من الكلمات بكل تصريفاتها باللغتين» وذلك لكل 
زوج من اللغات؛ وبناء هذه القواميس مكلف للغاية. 


اللّغة الوسيطة 


aad S atl i33 تحليل‎ 
ر‎ 2 





الل بلغة الحدّف a‏ بلّغة المصدّر 


الشّكل :١1-7‏ مناهج الت جة القائمة على القواعد اللغوية. 
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ie leg *‏ باستخدام القواعد التحويلية 
منهج in I‏ باستخدام القواعد التحويلية يمثل حلاً وسطا بين منهج as AI‏ 
المباشر ومنهج الترجمة من خلال تحويل جمل لغة المصدر إلى لغة وسيطة. هذا 
المنهج يعمل على ثلاث مراحل: تحليل جمل لغة المصدر لغويا: صرفيا أو نحويا 
أو دلالياء ثم تحويل ناتج التحليل إلى مقابل له في لغة الهدف» وبعد ذلك يتم 
توليد جمل لغة ا دف المكافئة باستخدام قواعد الصرف والنحو للغة المستهدفة. 
هذا المنهج يتكون من ثلاثة مكونات. المكون الأول خاص بلغة المصدر ويحتوي 
على قاموس للغة المصدر ومحللات صرفية ونحوية ودلالية (Ub‏ والمكون الثاني 
يحتوي على قاموس ثنائي اللغة وقواعد تحويلية تربط بين الوحدات المعجمية 
eda‏ قي d‏ لسار Luo dA‏ لانن دي Sesto‏ 
الثالث فيحتوي على قاموس للغة الهمدف ومولدات صرفية ونحوية ودلالية ها. 
عيب هذا المنهج أنه يجب إعادة كتابة المكون الثاني لكل زوج من اللغات مما 
يحتاج إلى تكلفة كبيرة؛ وهناك عيب آخر يتمثل في أن معالجة الالتباس اللغوي 
الذي يتم على لغة المصدر لا حمق التّتائج المنشودة - حتى في أفضل وضع وهو 
القيام بكل التحليلات الممكنة وصولا إلى التحليل الدلالي» حيث إن es‏ من 
أنواع الالتباس لا يمكن حلها إلا من خلال السياق الذي ذكرت فيه الجمل 
المطلوب ترجمتهاء وكذلك المعرفة عن العالم التي يصعب تمثيلها ومعالجتها آليا. 
e‏ منهج t AE‏ القائم على اللغة الوسيطة 
منهج الترجة القائم على اللغة الوسيطة (إنترلينجو). ويتألف نظام إنترلينجو 
من مكونين: المكون الأول هو الذي يحلل النص المكتوب بلغة المصدر ويحوله 
إلى تمثيل مقابل بلغة مستقلة مجردة» وهي ما نطلق عليها اللغة الوسيطة. 
اكد هو ای يوان ا oaa a‏ سان E ad‏ 
اله as JE‏ فى au Y eui La‏ اتال ين الكرة ارك الذي e‏ 
بتحليل النص الأصلي والمكون الآخر الذي يقوم بتوليد النص الأصلي بلغة 
أخرى؛ وعلى الرغم من مزايا هذا المنهج الذي يقدم حلولا لأغلب المشكلات 
التي يعاني منها المنهج القائم على القواعد التحويلية إلا أنه لم يستخدم على نطاق 
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eJ e‏ أحدهما: صعوبة تعريف لغة محايدة وسيطة بين لغات متباينة» 
والآخرٌ: صعوبة أن تكون هذه اللغة خالية من أي التباس وقادرة على تمثيل أي 
حتوى لنص مكتوب بلغة طبيعية. 
Le‏ تقدم نستطيع أن D p‏ إن منهج الترجة القائم على القواعد التحويلية هو المنهج 
الأكثر استخداما بين المناهج القائمة على القواعد اللغوية» حيث إن هذا المنهج يقدم 
حلا وسطا بين منهج Ae AJ‏ المباشرء والذي يعاني من سوء جودة الترجمة مع بساطته 
التقنية» ومنهج الترحة القائم على اللغة الوسيطة» والذي يتميز بالقدرة على التعامل 
مع أزواج كثيرة من اللغات مع صعوبة تعريف لغة وسيطة تستوعب كل الصور التي 
يمكن التعبير عنها باللغات الطبيعية. 


-YY‏ طريقة التَّرّحمة الآلية القائمة على استخدام أمثلة 
تتميز الطريقة القائمة على استخدام الأمثلة للترجمة الآلية بأنها تستخدم مدونة ثنائية 
اللغة متوازية» وتمثل هذه المدونة قاعدة معرفية لبرنامج ies JE‏ الفكرة الأساسية لهذه 
الطريقة هي الترجمة من خلال التهاثل في التكوين الظاهري للجملة» وليس من خلال 
القيام بتحليل لغوي عميق E.‏ ومرجع هذه الفكرة هو الاعتقاد بأن الناس تقوم أولا 
بتحليل الجملة إلى عبارات ثم تقوم بترجمة هذه العبارات» وأخيرا $88 0 الجملة بشكل 
صحيح من العبارات المترجمة. 
وتترجم العبارات عن طريق التطابق مع عبارات سبق ترجمتها موجودة في مجموعة 
النصوص المترجمة المتوازية. ويتكون نظام التّرجمة القائم على استخدام أمثلة من الأجزاء 
التالية: 
° برنامج التطابق الذي يحاول العثور على أكبر عبارة في الجملة المدخلة تتطابق مع 
الأمثلة الموجودة في نصف المدونة ثنائية اللغة المتوازية المكتوبة بنفس لغة الجملة 
clo adi‏ أي التى يراد ترحمتها. 
* برنامج التعرف الذي يحاول تحديد أفضل جزء يمكن اعتباره ترجمة للعبارة التي تم 
العثور عليها في الجملة الموجودة في النصوص المترجمة المتوازية في الجملة المقابلة ها. 


° برنامج تجميع العبارات المترجمة لتكوين أفضل جملة. 
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۳ , - طريقة التّرحمة الآلية القائمة على أسس إحصائّة 

هذه الطريقة الإحصائيّة تقوم على بناء نموذج إحصائي للترجمة ونموذج إحصائي 
للغة» ليستخدما بعد بنائهم| بواسطة برنامج لتوليد لغة الهدف من لغة المصدر؛ وهذا 
البرنامج يطلق عليه «برنامج فاك الشفرة». وهذا الاسم قد تم إطلاقه على هذا البرنامج 
لأسباب تاريخية» إذ إنه في بداية الأبحاث في ia II‏ الآلية كان يُنظر إليها على أن جملة 
لغة الهدف تم تشفيرها إلى لغة المصدر وأن المترجم الآلي هو الذي يقوم بفك جملة المصدر 
المشفرة إلى جملة المدف. والاختلاف بين مناهج الترجمة على أسس إحصائيّة قائم على 
طريقة بناء نموذج التُرجمة الإحصائيء ومن ثم على كتابة البرنامج المناسب لاستخدام 
هذا النموذج لبرنامج فاك الشفرة. 

وسنعرض في هذا القسم لمناهج d JUI‏ القائمة على أسس إحصائيةء ee glo‏ 
في: المنهج القائم على مستوى ترجمة الكلمة, والمنهج القائم على مستوى ترجمة العبارة» 
والمنهج القائم على مستوى ترجمة بناء هرمي للعبارة» والمنهج القائم على مستوى ترجمة 
لغة المصدر إلى بناء نحوي للغة الهدف. 


* المنهج القائم على مستوى ترجمة الكلمة 
في النماذج القائمة على ترجمة كلمة» يكون نموذج الترجمة عبارة عن مجموعة 
من الاحتمالات لترجمة كلمات من لغة المصدر إلى كلمات من لغة الهدف. ويتم 
تقدير هذه الاحتمالات من مدونة ثنائية متحاذية. هناك خسة ناذج أساسية 
لتقدير ترحمة كل كلمة من لغة الحدف إلى أكثر من كلمة في لغة المصدر؛ وهذه 
الناذج الخمسة تم اقتراحها من ES‏ مركز أبحاث IBM‏ في بداية التسعينيّات 
من القرن الماضي. تعتمد هذه النماذج على فرض أن كل كلمة في ila‏ في لغة 
الهدف قد يكون مصدرها أي كلمة في جملة لغة المصدر الموازية لهاء حيث يتم 
توليد جميع التباديل للكلمات في كل جملتين في المدونة المتحاذية» وكل تبديل من 
هذه التباديل يعطى احتمالا متساويًا في البداية. 
وباستخدام هذه التباديل يتم حساب احتمالات ترجمة كل كلمة من كلمات لغة 
الهدف إلى ما يقابلها من كلمات في لغة المصدر؛ وبناء على هذه الاحتمالات يعاد حساب 
احتمالات التباديل المختلفة لكل جملة حتى يتم الوصول إلى أفضل تقابل بين كل كلمة 
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في حملة لغة الهمدف والكلمة أو الكلمات المقابلة لها في الجملة المحاذية من لغة المصدر لكل 
الجمل في المدونة. الشكل (Y-Y)‏ يوضح مثالاً لجملتين متوازيتين بعد تحديد التقابل بين 
الكليات ف الجملنين. 
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الشّكل Y- Y‏ مثال لجملة تم تحديد تقابل الكلمات بها. 

(يحتوي ملحق هذا الباب على تفصيل أكثر حول طريقة بناء هذا النموذج 
الإحصائي). 

والمشكلة الأساسيّة في ei‏ القائمة على ترجمة كلمة أنها لا تستخدم أي كلمات 
سابقة أو لاحقة لتقدير احتمال الترجمة» وفي بعض الأحيان يكون من المفيد أن تكون 
وحدة الترجمة أكثر من كلمة لإنتاج ترجمة جيدة. فعلى سبيل المثال» إذا أردنا ترجمة 
«وزير صيني» إلى اللغة الإنجليزية - مع افتراض أنه قد تم تحديد أن كلمة «وزير» 
معناها (Minister)‏ وأن كلمة «صينى» معناها «(Chinese)‏ فإن الترجمة سوف تكون 
(Minster Chinese)‏ وهذه ie‏ خا Gl‏ إذا كانت وحدة ie kJ‏ مكونة من 
كلمتين وتم تحديد ترجمة هذه الوحدة» فإننا سوف نحصل على iz. AI‏ الصحيحة. 


¥۷» 
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* المنهج القائم على مستوى ترجمة العبارة 
تم اقتراح هذا المنهج للتغلب على المشكلات الناتجة عن المنهج القائم على 
مستوى ترجمة الكلمة. وحدة الترجمة في هذا المنهج هي مجموعة من الكلمات 
المتلاصقة. هذه المجموعة من الكلمات المتلاصقة - والتي سوف نطلق عليها 
عبارة لا تمثل (el‏ مكون لغوي - ليست سوى سلاسل من الكلمات المختارة 
وفقا لمحاذاة كل كلمة في جملة المصدر لمقابلها في جملة الهدف. فعلى سبيل المثال» 
يمكن توليد العبارات المكونة من كلمتين وترجمتها من المصفوفة الموضحة في 
الشكل (Y-Y)‏ كا في الجدول :)١-۲(‏ 


العبارة العربية AI‏ جة الإنجليزية 
وزير صيني Chinese minister‏ 
برازيلٍ يفوزان Brazilian win‏ 
الأمم المتحدة UN‏ 











الجدول ١-۲‏ : العبارات المتقابلة التي يمكن توليدها من المصفوفة الموضحة في الشّكل رقم QUO‏ 
ومن خلال المدونة اللغوية المتوازية - والتي تم مقابلة كل كلمة في جلها المكتوبة بلغة 

الهدف إلى الكلمة المقابلة لها بلغة المصدر - يتم حساب احتمالات ترجمة كل العبارات 

UL oU‏ المختلفة: الأحادية» الثنائية» الثلاثية» ... إلخ من لغة الهدف إلى لغة المصدر. 


« المنهج القائم على مستوى ترجمة بناء هرمي للعبارة 
يقوم هذا المنهج على استخدام قواعد السياق ا حر المتزامن؛ وكل قاعدة من هذه 
القواعد تتكون من جانب أيمن يعبر عن مكون نحوي» وجانب أيسر يُمَثل 
مجموعة من الكلمات أو المكونات ec‏ الأقل تعقيدا من الجانب الأيمن بلغة 
المصدر والمكافيع لها بلغة ال هدف. فعلى سبيل الال يمكن تمثيل العبارات المتقابلة 
الموضحة في الجدول (۱-۲) في قواعد سياق حر متزامن كما يلي: 
Chinese minister‏ ,وزير صيني> > X‏ )( 
Brazilian win‏ ,برازیلي يفوزان > > (Y) X‏ 
UN»‏ ,المتحدة الأمم (Y) Xo«‏ 


الاب 

















هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
):َُ6ا ب ييا 


من هذه القواعد» ومن الجملتين السابق استخدامههما في الشكل (OY Y)‏ يمكن توليد 
القاعدة التالية: 
X, XJ, A X, and a X, X, environmental prize >‏ بجائزة ,]1 و الآ > جاخ (f)‏ 
برنامج فاك الشفرة لهذا النموذج: 
(o) SxS,X,S,X,-»‏ 
C0 S><X X, >‏ 


تتم عملية فك الشفرة من خلال البدء بالرمز الابتدائي للقواعد الحرة المتزامنة والحملة 

المراد ترجمتها ثم محاولة تطبيق القواعد الأخرى للحصول على ترجمة الجملة المطلوبة. وفيا 
بلي خطوات تطبيق القواعد لترجمة الجملة العربية في Dell‏ المستخدم لتوضيح الفكرة: 

S>>X ,X > 

><X, $ X, بجائزة‎ X, * 3A X, and a X, X, environmental prize > 

— > وزير صينى و‎ X, بجائزة‎ X, للبيئة»‎ A Chinese minister and a X, X, environmental prize > 

> > وزير صينيو برازيل يفوزان بجائزة‎ X42) A Chinese minister and a Brazilian win X, environmental prize > 

2 «i وزير صينيو بر ازيل يفوزان بجائرة المتحدة الأمم‎ A Chinese minister and a Brazilian win UN environmental prize > 

باختصار OB‏ البرنامج المقترح لفك الشفرة هو برنامج بحث ذكي لاختيار أفضل 

القواعد التي يجب تطبيقها لترحمة جملة بلغة المصدر إلى ila‏ بلغة الهدف» حيث إنه في 

الواقع يكون هناك أكثر من ترجمة لحملة بلغة المصدر. 


* المنهج القائم على مستوى ترجمة لغة المصدر إلى بناء نحوي للغة AM‏ 
تقوم فكرة هذا المنهج على التحليل النّحوي للجمل على جانب لغة ال دف في 
المدونة ثنائية اللغة» ومحاذاة الكلمات من كلا الجانبين» ثم تعلم قواعد ترجمة تربط 
بين الكلمات والعبارات والجمل من لغة المصدر مع الأشجار البنائية الناتجة 
عن التحليل اللغوي للجمل على جانب لغة ال هدف. هذه المجموعة من قواعد 
i‏ تعتبر نموذج الترجة للمنهج القائم على مستوى ترجمة لغة المصدر إلى 
بناء نحوي للغة الهدف؛ ويستند برنامج فاك الشفرة في هذا المنهج إلى بناء شجرة 


-NY- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 


التحليل البنيوي لجملة الهدف» لجملة مدخلة بلغة المصدرء باستخدام نموذج 

Xe JI‏ الذي تم بناؤه» ثم تحويلها إلى البناء الظاهري للغة ال هدف. لتوضيح 

هذه الفكرة سوف نعطي مثالا لبناء نموذج الترجمة من الإنجليزية إلى العربية. 
الشكل (Y-Y)‏ يصف مخطط غاذاة للجملة (مع ملاحظة أننا قمنا بكتابة اللغة 
الإنجليزية من اليمين إلى اليسار حتى يمكن رسم خطوط المحاذاة بصورة 
أفضل مما يمكن القارئ من متابعتها): 


(A Chinese minister wins United Nations environmental prize) 


وترجمتها إلى اللغة العربية: «وزير صيني يفوز بجائزة الأمم المتحدة للبيئة» 


l 
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| 
| 
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wins minister Chinese A 


الشكل Y. Y‏ مخطط محاذاة لجملة إنجليزية والشجرة البنيوية لترحمتها العربية. 


من هذا المخطط الموضح في الشكل رقم (Y-Y)‏ يمكن استخراج قواعد e JI‏ 
لعبارات باللغة الإنجليزية إلى شجرة بنيوية باللغة العربية كا في الشكل رقم CE-Y)‏ 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
خخخ mnm———————‏ 


العبارة المدخخلة: Minister Chinese A‏ العبارة المدخلة: Nation United‏ 
i i‏ المخرّجة: تركيب وصفِيّ الشَجَرة المخرّجة: تركيب وصفِيّ 


MT‏ الأمم المتحدة 


(2) (b 


العبارة المدحلة: wins‏ تر كيب Gd‏ العبارة المدخلة: تركيب وَصِفىٌ 
١ prize environmental :‏ 


الشجّرة E jeu‏ المخرّجة: تركيب اسميّ 


- ا "VEM‏ تركيب QUA‏ جار ومجرور 
فعل حرف جر تركيب اسمي -" . 
ا IS Scr‏ 
جائزة 
)3( 
العبارة المدخلة: تركيب اسميّ - فِعلّ العبارة المدخلة: تركيب وصفِيّ 
الذي dé tesis‏ الشجّرة المخرّجة: تركيب اسمي 
توكيبة اسعي تركيب وصفي 


(a) di تركيب‎ 
(9) 





الشّكل ٠-۲‏ : بعض القوعد المستخلصة من المخطط الموضح في .)١-۲( JS‏ 

ويمكن تقسيم القواعد المستخلصة في الشكل (5-7) إلى ثلاث أنواع: 

* قواعد خاصة. مثل القاعدتين )3 (ب)» حيث إن مدخلات كل منهما كلمات 
باللغة الإنجليزية ومحرجات كل منهم| شجرة بنيوية باللغة العربية. أوراق هذه 
الشجرة ترجمة العبارة المدخلة باللغة العربية مرتبة ترتيبا نحويا صحيحا. 

. قواعد cale‏ مثل القاعدتين (a)‏ و 3( حيث إن مدخلات کل ke‏ رمز 
أو رموز غير نهائية» ومخرجات كل منهما شجرة بنيوية باللغة العربية تربط 
المدخلات في شجرة واحدة. 


-5/ا- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO EN‏ 


, قواعد شبه عامة مثل القاعدتين (ج) و (د)» حيث إن مدخلات كل ego‏ رمز 
أو رموز غير نائية مع رموز نهائية» ومخرجات كل منهما شجرة بنيوية باللغة 
العربية تربط المدخلات في شجرة واحدة. 

ولتوضيح فكرة عمل برنامج فاك الشفرة هذا المنهج» سنحاول أن نتتبّع خطوات 

ترجمة JEL‏ المستخدم لتوليد هذه القواعد على JÕI secl‏ 

* يتم قراءة الجملة المدخلة كلمة كلمة حتى يمكن اختيار قاعدة تكون مدخلاتها 
الكلمات المقروءة. الكلمات المقروءة في هذا المثال - والتي تتطابق مع مدخلات 
القاعدة (D‏ الموضحة في الشكل (£-Y)‏ - هى: «Minister Chinese A»‏ 
والتي تولد التركيب الوصفي المكون من الكلمتين «وزير صيني». 

٠‏ يتم تكرار الخطوة الأولى حتى يتم الانتهاء من تطبيق القواعد الخاصة. في حالة 
هذا المثال.. فإن القاعدة (ب) هي التي سوف تطبق ويتم توليد تركيب وصفي 
آخر مكون من الكلمتين «الأمم المتحدة». 


* القاعدة (د) يمكن تطبيقها الآن والتى تغطى التركيب الوصفى United)‏ 
Nations‏ والتي يتبعها «(Prize Environmental)‏ وسوف c‏ عن هذا 
التطبيق توليد الشجرة الموجودة في هذه القاعدة بعد تركيب الشجرة الفرعية 
للتركيب الوصفي» كا هو موضح في الشكل رقم (0-1). 





الشّكل o Y‏ الشجرة البنيوية للعبارة (جائزة الأمم المتحدة». 


-ه/ا _- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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«(3) القاعدة (ج) يمكن تطبيقها بعد تكوين التركيب الاسمي في الخطوة رقم‎ e 
والتي تولد الشجرة البنيوية للعبارة «يفوز بجائزة الأمم المتحدة للبيئة)» وهي‎ 

* القاعدة (ه) هي الوحيدة التي يمكن تطبيقها في هذا الموقف. والتي تحوّل 
التركيب الوصفي «وزير صيني» إلى تركيب اسمي. 

* تم الآن تكوين تركيب اسمي يتبعه تركيب فعلي» ومن ثم يمكن تكوين الشجرة 
البنيوية للجملة باستخدام القاعدة (و). ويمكن لبرنامج فاك الشفرة أن يولد 
جملة ا دف باللغة العربية مرتبة ترتيبًا نحويًا صحيحًا. 


٤,۴‏ - طريقة التّرّحمة الآلية القائمة على التعلم العميق 

طريقة الترجمة الآلية القائمة على التعلم العميق أبسط من طرق الترجمة القائمة على 
النموذج الإحصائي؛ ذلك T‏ لا يوجد نموذج لغوي منفصلء ولا نموذج ia AU‏ ولا 
نموذج فاك للشفرة. هذه الطريقة تعتمد على تعليم شبكة عصبية متتالية بوضع جمل لغة 
المصدر كمدخلات هذه الشبكة ووضع ترجمة هذه الجمل بلغة الهدف كمخرجات A‏ 
وتحتاج عملية التعلم هذه إلى قوة حاسوبية عالية. وحال القدرة على تعليم هذه الشبكة 
العصبية» يتم استخدامها في ترجمة أي جمل أخرى من لغة المصدر. 


4 - البرامج والموارد اللغوية المرتبطة ia AU‏ الآلية 


١ £‏ - البرامج اللغوية المطلوبة لنظم ia I‏ الآلية القائمة على القواعد اللغوية 

تحتاج مناهج ia AI‏ القائمة على القواعد اللغوية إلى برامج على جانب لغة المصدر 
للقيام بالتحليل الصرني والتحليل النحوي والتحليل الدلالي وتوليد اللغة الوسيطة؛ كا 
تحتاج على جانب لغة الهمدف إلى برامج للقيام بتحويل الجملة الممثلة باللغة الوسيطة إلى 
hië‏ دلالي» وتحويل التمثيل الدلالي إلى ثيل نحوي» وتحويل التمثيل النحوي إلى جذوع 
مزيدة بخصائصها الصرفية» وتركيب هذه الجذوع مع خصائصها الصرفية لتكوين 
الكلمات في صورتها النهائية. وني حالة منهج الترجمة باستخدام القواعد التحويلية 


-V1 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


لغة المصدر. وفي أغلب الأحيان يتم تحليل النص المكتوب بلغة المصدر نحويا ويتم تمثيل 
ناتج التحليل في شجرة بنائية. وفي هذه الحالة يتم كتابة برنامج لتحويل هذه الشجرة 
البنائية التى تمثل الجملة المراد ترحمتها إلى شجرة مكافئة بلغة الهمدف. والجدول (Y-Y)‏ 
بلخص العلاقة بين اهم التّرجمة القائمة عل القواعد اللغوية والبرامج المطلوية: 


5 3 

3 ا $ 

4 43/3 3 3 3, ^ A 

E E EE‏ اد 

x EMEN 

xix x x | pee apo 
القواعد التحويلية‎ 

منهج deca‏ | ين | يو | xlix x xix xx‏ 
غل اللقة الوسيطة 



































الجدول Y-Y‏ العلاقة بين مناهج ia A‏ القائمة على القواعد اللغوية والبرامج المطلوبة لتنفيذ هذه المناهج 
£ و -Y‏ البرامج اللغوية المطلوبة لنظم I‏ جمة الآلية القائمة على الأمثلة 
البرامج الأساسية الترجة الآلية القائمة على الأمثلة هي: 


e» *‏ التطابق الذي يحاول العثور على أكبر عبارة في الجملة المدخلة تتطابق 
مع الأمثلة الموجودة في نصف المدونة الثنائية المتوازية المكتوبة باللغة التي يراد 
ترجمتها. 

* برنامج التعرف الذي يحاول تحديد أفضل جزء يمكن اعتباره ترجمة للعبارة التي 
تم العثور عليها في الجملة الموجودة في النصوص e AM‏ المتوازية في الجملة 
المقابلة . 


° برنامج تجميع العبارات المترجمة لتكوين أفضل جملة. 


—-VV— 

















هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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التعرف. 
£ “- البرامج اللغوية المطلوبة لنظم SII JI‏ القائمة على أسس إحصائيّة 
البرامج الأساسية للترجمة الآلية القائمة على أسس إحصائيّة هي: 
* برنامج محاذاة الكلمات. 
* برنامج بناء نموذج ترجمة العبارة. 
* برنامج توليد قواعد لغوية متحررة من السياق ومتزامنة. 
* برنامج توليد قواعد ترجمة. 
* برنامج فاك الشفرة الخاص بالنظام القائم على مستوى ترجمة الكلمة. 
* برنامج فاك الشفرة الخاص بالنظام القائم على مستوى ترجمة العبارة. 
* برنامج فاك الشفرة الخاص بالنظام القائم على مستوى بناء هرمي للعبارة. 


* برنامج فاك الشفرة الخاص بالنظام القائم على مستوى ترجمة لغة المصدر إلى بناء 
نحوي للغة الهمدف. 


الجدول (T-Y)‏ يوضح العلاقة بين مناهج ia AE‏ القائمة على أسس إحصائيّة 
والبرامج المطلوبة لتنفيذ هذه المناهج. 


-MAÀ- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


Y 
. A 2a 
3 s $ $1 5 s 
y ; 3, 3%. 
3 3 33 $ 3 
0 3 3 39 * $3 
D ME ATI 
j| ^ $3i3/5 
: ; a3 
so 
ولاس‎ nr المنهج القائم على‎ 
gels 0 المنهج القائم على‎ 
العبارة ترجمة العبارة‎ 
الخال‎ a المنهج القائم على‎ 
هرمي للعبارة ترجة ة بناء هرمي للعبارة‎ 
oh المنهج القائم على برنامج فاك الشّفرة‎ 
x | ہر | بالنظام القائم على مستوى‎ x | مستوى ترجمة لغة‎ 
المصدر إلى بناء ترجمة لغة المصدر إلى بناء‎ 
نحوي للغة المدف‎ JA نحوي للغة‎ 


























الجدول Y- Y‏ العلاقة بين مناهج UI JI‏ على أسس إحصائية والبرامج ج المطلوبة لتنفيذ هذه المناهج 


ه- أهم المواقع والأدوات المساعدة للموارد والتقنيات مفتوحة المصدر 
معظم البرامج والموارد اللغوية لنظم الترجة الآلية القائمة على القواعد اللغوية 
ليست متاحة للجمهور؛ إلا أن هناك بعض الشركات العاملة في مجال تقنيات اللغة 
العربية تمتلك محللات صرفية ومعاجمٌ للغة العربية. كا تضمنت بعض الأطروحات 
في الجامعات قواعد نحوية مزيدة بملامح دلالية وقواعد لتوليد اللغة من لغة وسيطة؛ 


- 1/4 




















هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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والمراجع في نهاية الكتاب تحتوي على هذه الأطروحات . ولكن هذه البرامج والموارد 

التي تم تطويرها ليست متاحة للجمهور أيضا. GT‏ بالنسبة للترجمة الآلية القائمة على 

أسس إحصائيّة» فلا توجد الكثير من الموارد المتاحة للجمهور بدون مقابل. إلا أن 

مؤسّسة LDC‏ في جامعة بنسلفانيا بالولايات المتحدة الأمريكية تتيح بعض مواردها 

بدون مقابل للمتنافسين في المسابقة التي يجريها المعهد القومي للمعايرة والتقنية 

بالولايات المتحدة الأمريكية. وفيا يلي قائمة بالموارد التي تمت إتاحتها للمتنافسين في 

المسابقة التي أجراها الحهد القومي للمعايرة والتقنية عام 4 : ٠‏ عل ia Il‏ الآلية من 
العربية إلى الإنجليزية: 

1- 11002007140 Arabic Gigaword Third Edition. 

2- LDC2004T18 Arabic English Parallel News Part 1. 

3- LDC2004T17 Arabic News Translation Text Part 1. 

4- LDC2005E46 Arabic Treebank English Transla-tion. 


5- LDC2005T02 Arabic Treebank: Part 1 v 3.0 (POS with full vocali- 
zation + syntactic analysis). 


6- LDC2004T02 Arabic Treebank: Part 2 v 2.0. 


7- LDC2005T20 Arabic Treebank: Part 3 (full corpus) v2.0 (MPG + 
Syntactic Analysis). 


8- LDC2004L02 Buckwalter Arabic Morphological Analyzer. 
.9- LDC2007T07 English Gigaword Third Edition. 

10- LDC2004E72 eTIRR Arabic English News Text. 

11- LDC2003T18 Multiple-Translation Arabic (MTA) Part 1. 
12- LDC2005T05 Multiple-Translation Arabic (MTA) Part 2. 
13- LDC2006E44 TIDES MT 2004 Arabic evaluation data. 
14- LDC2006E39 TIDES MT 2005 Arabic evaluation data. 
15- LDC2004E13 UN Arabic English Parallel Text. 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
EE EN‏ ااا 


أما البرامج والأدوات التي ُستخدم على نطاق واسع من الباحثين المهتمين Re JU‏ 
الآلية القائمة على سس إحصائيّة والمتاحة للجمهور فهي: 

-١ ©‏ جيزة + + (GIZA++)‏ هو امتداد للبرنامج الجيزة الذي تم تطويره خلال 
صيف عام ١144‏ آثناء ورشة عمل في مركز اللغات في جامعة جونز هوبكنز. 
الجيزة ++ يستخدم من قبل العديد من العلماء لبناء نموذج الترجة القائم على 
مستوى الكلمة» كا يُستخدم لمحاذاة الكلمات في مدونة ثنائية اللغة. ويمكن 
تحميل هذه الأداة مجانا من شبكة الإنترنت. 

Y , o‏ - البرمجيات المتاحة مجانا من جامعة كارنيجي ميلون-كامبريدج لبناء نهاذج 
إحصائيّة للغات”2 وكذلك البريجيّات المتاحة من جامعة ستانفورد لنفس 
O 9I‏ 

Y, 0‏ - هناك مجموعة من برامج فك التشفير المتاحة مجاناء والتي يمكن تحميلها. 
فهناك برنامج فاك الشفرة للنظام المبني للترجمة على مستوى العبارة ويسمى 
(S «P? Pharaoh)‏ أن هناك GU,‏ يستخدم بكثرة هذه الأيام يسمى 
(Moses)‏ . 


- أفكارٌ لتطوير مدونات لغوية مستقبلية 

حيث Sp‏ أكثرٌ المدونات ثنائية اللغة غير متاحة مجانا للباحثين» كما أن المتاح منها 
بمقابل في جال الأخبار OB clas‏ هناك احتياج لاستحداث مدونات ثنائية اللغة في 
مجالات أخرى. ويفضل اختيار المجالات التى بها مادة مترجمة إلى أكثر من لغة» مثل: 
مواقع الأمم المتحدة عل شبكة الويب. كذلك يمكن إضافة قيمة للمدونات ثنائية اللغة 
المناحة لتحسين جودة نموذج الترجمة الناتج عن هذه المدونات. 


- http//:www.fjoch.com/GIZA .-—html. 
- http://mi.eng.cam.ac.uk/-prc14/toolkit.html. 
- http://www.speech.sri.com/projects/srilm/. 


- http://www.isi.edu/licensed-sw/pharaob/. 


سم A U N‏ صن 


- http://sourceforge.net/projects/mosesdecoder/. 


—AY- 





هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ييا 


9 ; 3 
٦‏ و -١‏ موضوع الفكرة الأولى: 
تذيبل 2534 ثنائية اللغة صر فيا ود لاليًا 
* مادة الدراسة: 
A ub‏ فنا اللغة 
ean e‏ 
- ما هي مجموعة المعلمات/ الرّموز (tags)‏ التي تستخدم لتذييل الكلمات؟ 
- ما هى المنهجية المناسبة لتذييل الكليات في المدونة ثنائية اللغة ؟ 
* منهج الدّراسة» ومجال البحث: 
تقوم الدراسة على استخدام برمجيات لمساعدة الباحث في تذييل الكلمات في الجمل 
المتقابلة» والتي قد تصل إلى خمسين ألف جملة (حوالي مليون Gals‏ على الأقل؛ 
ومن ثم يمكن تحسين نموذج الترجمة الإحصائي الذي يمكن إنتاجه من هذه 
X y dl‏ 


Y , ٦‏ - موضّوع الفكرة الثانية 
بناء مدونة متعددة اللغات فى coUe‏ منظمات الأمم المتحدة 
* مادة الدراسة: 
مواقع منظمات الأمم المتحدة الإلكترونيّة» والتى تحتوي على وثائق متعددة 
اللغات؛ أو استخدام بعض الكتب المترجمة المتاحة. 
* الأسئلة البَحئيّة: 
- ما هى المنهجية المناسبة لمحاذاة الجُمل في المدونة متعددة اللغات» حيث | 
الترحمات قد لا تكون حرفية؟ 
- ماهو الأسلوب الأمثل لتعظيم الفائدة من بناء هذه المدونة متعددة اللغات» 
حيث إِنْ حجمها قد لا يكون كبيرًا؟ 


C: ع‎ 


—AY- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
EE EN‏ ااا 


* منهج الدّراسة» ومجال البحث: 
تقوم الدراسة على استخدام برمجيات لمساعدة الباحث لمحاذاة الجمل المتقابلة 
والتي قد تصل إلى خمسين ألف جملة (حوالي مليون كلمة) على الأقل مع محاذاة 
٠‏ من هذه الجمل على مستوى الكلمة» وذلك لتحسين عملية محاذاة الكلمات 
الترحة الإحصاتى الذي يمكن إنتاجه من هذه المدونة. 


ملحق - الأساس (e I‏ لبناء نظام Jia y‏ إحصائيٌ 

يوضح هذا الملحق الأساس النظري لبناء نظام ترجمة آلي إحصائي؛ ويرجع هذا 

الأساس إلى نظرية «القناة المشوشة» المعروفة في حقل المعلومات. يقوم تطبيق هذه 

النظرية في الترجمة الآلية على تصور أن الجملة الأصلية قد تم إرسالها من مصدر في قناة 

اتصال ووصلت مشوشة إلى هدفها؛ هذه الجملة المشوشة هي ترجمة الجملة الأصلية. 

وعملية الترجمة هي إرجاع الجملة المشوشة إلى أصلها. يمكن التعبير عن عملية الترجمة 
باستعمال نظرية الاحتمالات كما يلي: 


(1) argmax P(e | f) 
e 


إذا افترضنا أن الحرف (e?‏ يشير إلى ile‏ باللغة العربية وأن الحرف D‏ يشير إلى أي 
لغة أجنبية وأن هناك أكثر من ترجمة للجملة D‏ وأن لكل ترجمة قيمة مختلفة للتعبير 
الاحتمالي «(e | DP‏ فإنه يمكن قراءة التعبير iem VE‏ المذكور أعلاه كا يلى: الجملة 
العربية «e?‏ التي تنتج أكبر قيمة للتعبير الاحتمالي e | DP‏ تكون هي الترجمة SX‏ 
Yel‏ للجملة D‏ وإذا افترضنا أن: 


١-عدد‏ الكلات في الجملة هو m‏ 


"ES remes ££, مكونة من الكلمات‎ P» -الحملة‎ Y 
تكون‎ um do يمكن أن تترجم إلى أكثر من ترجمة. ولنقل إلى‎ tfo كلمة‎ Js-Y 
Pelf) .... ل‎ P(e; | £( ....رء» باحتمالات:‎ e, ترجمة‎ 


؛ -متوسط عدد ترجمات كل كلمة هو SO.‏ 


AP 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n—UuUÓ L|‏ 


ه-كل كلمة تترجم إلى كلمة واحدة. 

5-1[ كلمة تترجم في نفس المكان في الجملة المترجمة. 

لو افترضنا كل هذه الافتراضات الغير واقعية OB‏ عدد ترجمات الجملة D‏ يكون 
k^‏ . فعلى سبيل المثال إذا كان عدد كلمات الجملة «f‏ عشر كلمات «m710)‏ وكل 
كلمة يمكن أن تترجم إلى كلمتين مختلفتين في المتوسط (2=))ء فإن عدد الجمل التي 
يمكن أن تنتج هو e10^2‏ أي ٠١75‏ ترجمة ب ٠١75‏ احتمال. ويكون احتمال ترجمة 
الحملة «f»‏ إلى الجملة «e»‏ كما يل: 


m 
(Y) — P(e|D- II P(e]£) 
Pl 


بعد القيام بحساب ٠١55‏ احتمال» نختار الجملة الأكثر احتمالا. 
مُشكلةٌ هذه الطريقة أن الترجمة تعتمد فقط على احتالات ترجمة الكلمات التى ينبغى 
أن تكون جيّدة جدًا حتى يمكن الحصول على ترجمة مقبولة. في الواقع يصعب الحصول 
على تقدير جيد لترجمة كل الكلمات من لغة إلى لغة أخرى؛ لذلك تم استخدام قاعدة بايز 
LS (Bayes' Rule)‏ هو موضح في المعادلة رقم (Y)‏ 
(Y) P(e |f) = P(f| e) P(e) / PŒ‏ 
هذه المعادلة تحول حساب احتتمال iay‏ جملة من لغة المصدر إلى لغة ال هدف 
(e | (‏ إلى حساب احتمالين» الاحتمال الأول هو احتمال ترجمة جملة من لغة الهدف 
إلى لغة المصدر (P(f | e))‏ والاحتال الآخر هو احتمال حدوث هذه الجملة في لغة 
الحدف ((2)6). أما احتمال حدوث جملة لغة المصدر (P(f))‏ فهو قيمة ثابتة يمكن حذفها 
P(e | f) = P(f | e) P(e)‏ )£( 
الاحتمال الأول يمكن حسابه من نموذج الترجمة والاحتمال الآخر يمكن حسابه من 
نموذج اللغة. في أول نموذج للترجمة قدمه مركز أبحاث "IBM - IBM Model-1"‏ 
كان نموذج الترجمة مكونًا من مجموعة احتمالات لترجمة كلمات من لغة ا هدف إلى لغة 


—Af- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


المصدرء يتم حسابها من مدونة ثنائية اللغة. أما نموذج اللغة فهناك ناذج عديدة للغة» 
أبسطها هو نموذج اللغة الثنائيٌ» وهو عبارة عن مجموعة من احتمالات تتابع كلمة 
لكلمة أخرى؛ ويمكن تكوين هذا النموذج من مدونة أحادية اللغة. 

ومن ثم يمكن حساب احتمال ترجمة جملة مكونة من عدة كلمات من خلال حساب 
المعادلة C‏ كما يلى: 


m m+1 
(o) P(f|e)- HPE |e) PP(e,|e,,) 
j=l j=l 


هذه الطريقة أفضل من الطريقة المباشرة» حيث Ol‏ نموذج اللغة يحسن من جودة الترجمة 
لأنه يعطي وزنا أكثر للترجمة التي تتوافق مع قواعد لغة الهدف. ومن ثم فإن المشكلة 
لبناء نموذج الترجمة سنكون فى حاجة لتكوين مدونة متحاذية ثنائية اللغة» وهذه 
E 3 5‏ 
أيضا مشكلة حيث إن المدونات اللغويّة الثنائية لا تكون متحاذية على مستوى الكلمة 
حين يتم تجميعها؛ ومحاذاة المدونة الثنائية على مستوى الكلمة يدويًا فيه صعوبة بالغة 
فلإنتاج نموذج ترجمة يتم اتباع الخطوات التالية القائمة على فكرة خوارزم التقدير 
و التعظيم :(Estimation- Maximization Algorithm)‏ 
-١‏ يتم توليد جميع المحاذات الممكنة على مستوى الكلمة لكل جملتين متقابلتين. 
lem colam e ١‏ ترجة كل كلمة من لخة ادف إل لغة المصر )& | Ff‏ 
تقريبيا عن طريق افتراض أن ترجمة أي كلمة في لغة الهمدف يمكن أن تكون 
واحدة من الكلمات في لغة المصدر؛ وإذا كان عدد الكلمات في لغة المصدر هو 
(N)‏ فسيمكن حساب احتمال P(f | e)‏ تقريبًا کالتالي: 
CO P(f|e)=1/N‏ 
Y‏ يتم حساب احتمال كل محاذاة من خلال المعادلة الآتية: 


(V) m 
P(a, f | e) =P (f | e.) 
21ل‎ 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
)َُ:6ا ب ا 


حيث (8) هو كم متجه (Vector)‏ يمثل المحاذاة بين الكلمات في ila‏ المصدر والكلات 
في جملة الهدف. فعلى سبيل المثال» إذا كانت الحملة الإنجليزية : 
(A Chinese minister wins United Nations environmental prize)‏ 
وترجمتها إلى اللغة العربية: 
«وزير صيني يفوز بجائزة الأمم المتحدة للبيئة) 
ومع اعتبار أن لغة المصدر هي الإنجليزية ولغة ال هدف هي العربية؛ حبثٌ إن كه 
المتجه «a»‏ كالتالى: 


Y ١ Y 5 o ۷ é 





























A Chinese Minister Wins United Nations Environmental Prize 
©( في نفس المعادلة هي‎ 6 a e» و‎ (United هي كلمة‎ (V) في المعادلة رقم‎ «fo» فان‎ 
الهدف» وهي الحملة‎ ila تعني الرقم 5 الذي يمثل الكلمة السادسة في‎ (a0 حيث‎ (ao 
كلمة «المتحدة». ويكون احتمال هذه المحاذاة:‎ Gao العربية؛ ومن ثم يمثل‎ 

6 صيني P(A [null) P (Chinese|‏ = (وزير صيني ...| (A) P(a, A Chinese minister...‏ 
لكل محاذاة احتهال» وهذا الاحتمال يتناسب طرديًا مع تحسّن احتمالات ترجمة الكلمات 
المتحاذية. في البداية تكون جميع احتمالات توليد كلمات جلة المصدر من جملة الهمدف 
متساوية كا سبق وتم شرحه في الخطوة رقم (۲). بعد حساب الاحتمالات لكل lae‏ 

لحملتين متقابلتين يتم تطبيع (normalize)‏ هذه الاحتالات ليكون مجموعها ۱١, t‏ . 
4- من خلال احتمالات المحاذاة المختلفة لكل جملتين متقابلتين» فإنه يمكن أن يتم 
إعادة حساب نموذج الترجمة» والذي يتكون من مجموعة من احتمالات توليد 
كلمات من لغة ال هدف إلى لغة المصدر من خلال القيام بعملية عد جزئيٌ partial)‏ 

(count, pc‏ طبقا للمعادلة التالية: 


(a)  pe(f[e)- Ipc(a,fle) 
3 


والعد الجزتىٌ له علاقة باحتمال المحاذاة. فعلى سبيل UL‏ إذا كانت كلمة «للبيئة) قد تمت 
محاذاتها بكلمة (environmental)‏ 3( جملتين متقابلتين وكان احتمال محاذاة هاتين الحملتين 
(a‏ هو ٤‏ , *. كان العد 552-1 | ie ;J «po»‏ كلمة «للبيئة» إلى (environmental)‏ 


AMT 








هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


هو «E‏ إذا كانت هاتان الكلمتان قد تمت محاذاته) في جملتين أخريين وكان احتمال 
المحاذاة هو ”, c*‏ فإن العد الجزئى لتوليد كلمة (environmental)‏ من كلمة «للبيئة») 
يصبح ۷, *6 وهكذا تتم زيادة العد الجزئي كلما حدثت محاذاة بين نفس الكلمتين. أما 
إذا تم توليد كلمة (environment)‏ من كلمة «للبيئة» في عدة جمل وكان العد الجزئى 
هذا التوليد هو ١,5‏ فإنه يمكن حساب احتالات توليد كلمة (environment)‏ 
و (environmental)‏ من كلمة «للبيئة» من خلال قسمة العد 2 c‏ لكل حالة de‏ 
JJl dia‏ الجزئي للحالتين» ومن ثم يكون احتتمال توليد كلمة (environmental)‏ 
من كلمة «للبيئة): 

P (environmental | iU) 2 *,V /(*, v«Y,0)  *, YY 

واحتمال 5 44 كلمة (environment)‏ من £415 «للبيئة): 
١,5 / (* ,V«Y,0) 2 *, A‏ = (للبيئة | P (environment‏ 
-٥‏ يتم إعادة حساب احتمالات المحاذاة e‏ الحمل بعد إعادة حساب احتمالاات 
توليد كليات لغة المصدر من لغة المحدف» ونتم مقارنة هذه الاحتالاات الحديدة 
مع احتمالات المحاذاة القديمة؛ فإذا كانت نتيجة المقارنة أن هناك فارقًا dS‏ 
فستتم إعادة المخطوة رقم e£‏ أما إذا كان هذا الفارق صغيرًا li‏ فسيتم الانتهاء 
من هذه العملية؛ وتكون نتيجة هذه العملية بناء نموذج الترجمة» وكذلك إنتاج 


مدونة متحاذية على مستوى الكليات. 
وسوف نعطي هنا مثالا تطبيقيا مبسطًا لتوضيح العملية السابقة. لو افترضنا أننا 
نملك هذه المدونة: 
Chinese Minister‏ وزير صيني 
Minister‏ وزير 
Chinese Prime Minister‏ رئيس وزراء صيني 











وبتطبيق الخنطوات السابقة على هذه المدونة نحصل على الآتي: 


—AN- 

















هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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X. TA 
Chinese Minister Chinese Minister 
(Y) () 
وزير‎ 
Minister 
(Y) 


رئيس وزراء صيني رئيس وزراء صيني رئيس وزراء صيني 


2 


Chinese Prime Minister Chinese Prime Minister Chinese Prime Minister 


CU (o) (£) 





حيث إن عدد كلمات لغة المصدر في المدونة البسيطة هو ثلاث كلمات» فإن أي كلمة في 
لغة المدف يمكن أن تولد UT‏ من هذه الكلبات. ويكون diee‏ توليد أي كلمة فى لغة 
المصدر هو Y /N‏ 


احتمالات محازات العبارتين المتقابلتين الأوليين في هذه المدونة المبسطة هي: 

P(a,f| e)» 1/3X1/3 = 1/9‏ 
وحتى يكون مجموع احتالات المحازاة »١‏ وحيث إن هناك محازاتين هاتين العبارتين 
المتقابلتين» فإن احتمال كل محازاة هو Y /١‏ 
بالنسبة للكلمتين المتقابلتين في المحازاة رقم (P)‏ فإن احتمال هذه المحازاة سوف يكون .١١ ٠‏ 
بالنسبة للعبارات المتقابلة في المحازات C£)‏ و (5) و CO‏ فإن احتمال كل محازاة سوف 
يكون ."/١‏ 


—AA- 


.١‏ توليد جميع 


£ 


المحازات الممكنة على مستوى الكلمة لكل جملتين أو عبارتين 
متقابلتين (هناك محازات أخرى» ولكننا سنكتفى ببذه المحازات للتبسيط). 


من لغة الهدف إلى لغة المصدر. 


۳. حساب de=‏ كل محازاة. 
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1/3 = (رئيس | pe(prime‏ | المحازاة )£( 
1/3 = (رئيس | pe(minister‏ | المحازاة Co)‏ 
1/3 = (رئيس | pe(Chinese‏ | المحازاة CU‏ 
1/3 = (وزراء | pe(minister‏ | المحازاة (€) 
1/3 = (وزراء | pe(Chinese‏ | المحازاة )6( 
pe(prime | 41,55) = 1/3‏ | المحازاة CO‏ 

(Y) و‎ CO المحازاة‎ | pe(minister | 555) 11/2 
CY) المحازاة‎ | pe(Chinese | 555) 1/2 

CE) و‎ CO المحازاة‎ | pe(Chinese | =(صيني‎ 03 








1/2+1/3 <ر(صينى | pe(minister‏ | المحازاة (۲) و C)‏ 





Co) المحازاة‎ | pe(prime | (صينى‎ = 1/3 


من هذا العد الجزئى يمكن إعادة حساب احتمالات توليد كلمات لغة المصدر من لغة 


الهدف كالتالي: 


5/12 = (5/6(/)5/6+5/6+1/3) = (صينى 
5/12 = )5/6+5/6+1/3( /(5/6) = (صينى 


P(minister 


P(Chinese 


P(prime | (صينى‎ = )1/3(/ (5/6+5/6+1/3) = 2/12 = 1/6 


3/4 = )1/2 +3/2( )8/2( = ) وزير 





4 = )1/2 +3/2) /(1/2) = ) وزير 





P(minister 


P(Chinese 


P(prime | رئيس‎ ) = )1/3(/)1/3+1/3+1/3( = 1/3 


P(minster | رئيس‎ ) = (1/3) /)1/3+1/3+1/3( = 1/3 


P(Chinese | رئيس‎ ) = (1/3) /(1/3+1/3+1/3) = 1/3 








P(minister | (وزراء‎ = (1/3) /(1/3+1/3+1/3) = 1/3 


P(Chinese | (وزراء‎ = (1/3) /)1/3+1/3+1/3( = 1/3 


P(prime | (وزراء‎ = (1/3) /(1/3+1/3+1/3) = 1/3 


-۸4- 





Acad لعة‎ ioa d اعم الاك تو لبد كلرات‎ od 
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حتالات المحازاة قبل التطبيع 


P(a=1, f | e) = 3/4X5/12 = 15/48 
P(a=2, f | e) = 1/4X5/12 = 1/48 
P(a-3,f]e)-3/4 

P(a=4, f | e) = 1/3X1/3 X5/12- 5/72 
P(a-5, f | e) = 1/3X1/3X1/6 22/72 
P(a-6, f | e) = 1/3X1/3X5/12 = 5/72 





كنا نرى فإن المحازاة رقم )١(‏ والمحازاة رقم C£)‏ والمحازاة رقم CO‏ قد تحسنت بقدر كبير» 
وذلك بسبب المحازاة رقم (Q9)‏ والتي تحتوي على كلمة واحدة ما يعطي دفعة كبيرة لاحتمال 
توليد كلمة minister‏ من كلمة وزير» وكذلك لأن احتمال توليد كلمتى Chinese, minis-‏ 
ter‏ من كلمة صيني أكبر من احتمال توليد كلمةعصنة:م من كلمة صيني. ومن ثم فإننا سوف 


نعيد الخطوة رقم .)٤(‏ 








احتالات المحازاة المطبعة 


P(a-1,f|e) = 15/16 
P(a-2,f | e) = 6 
P(a-3,f|e)-1 

P(a=4, f | e) = 5/12 
P(a=5, f | e) = 2/12 
P(a-6, f| e) = 2 





—-Q.- 


o‏ . إعادة حساب احتتمالات المحازاة. 
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7/12 = 1/6+5/12 = (صيني | pc(minister‏ المحازاة(2؟) و(5) 
65/48 = 15/16*5/12 = (صيني | pe(Chinese‏ المحازاة(١)و(5)‏ 
2 = (صيني | pe(prime‏ — المحازاة(0) 
6 = 15/16+1 = (وزير pe(minister|‏ — حازاة (Y) ; CO‏ 
pe(Chinese| »55) - 1/16‏ المحازاة(؟) 
5/12 = (رئيس | —pe(prime‏ ال محازاة )٤(‏ 
2 = (رئيس pc(minister|‏ — المحازاة Co)‏ 
5/12 (رئيس | CO!  pe(Chinese‏ 
2 = (وزراء | pe(minister‏ — الحازاة (€) 
2 - (وزراء (o) allali — pe(Chinese|‏ 
5/12 (وزراء CUOI pe(prime]‏ 
من هذا العد الجزئى يمكن إعادة حساب احتمالات توليد كلمات لغة المصدر من لغة الهدف 
كالتالي: : 
28/101 = )7/12)/(7/12+65/48+2/12( = (صيني | P(minister‏ 
65/101 = )65/48)/(101/48( = (صيني | P(Chinese‏ 
8/101 = )101/48( /)2/12( = (صيني | P(prime‏ 
31/32 = )1/16 +31/16) )31/16( = (وزير | P(minister‏ 





P(Chinese | (وزير‎ = (1/16)/ (32/16) = 1/32 

P(prime | (رئيس‎ = (5/12)/(5/12+2/12+5/12) = 5/12 

P(minster | (رئيس‎ = (2/12) /(12/12) = 2/12 

P(Chinese | | (رئيس‎ = (5/12) (12/12) = 2 

P(minister | «155 5) = (5/12) /(5/12*2/12*5/12) = 5/12 

P(Chinese [el 55) = (2/12) (12/12) = 2/12 

P(prime [c1 55») = (5/12) (12/12) = 5/12 

يمكننا أن نلاحظ أن احتمالات توليد كلمات لغة المصدر الصحيحة من لغة الهدف قد تحسنت 


-4١- 
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٦‏ . اعادة 


احتمالات توليد كلات لغة المصدر من لغة JAM‏ 
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الفصل eu‏ 
التشكيل الآلى 


1 E 
د. محسن رشوان‎ 


١‏ - تعريف بعلامات التشكيل في اللّغة العربيّة. 
- صياغة رياضيّة لحسم مشكلة التشكيل. 
ul cuna - Y‏ المسظ: 

5 - خوارزم فيتربي. 

-o‏ مسائل أخرى متشابهة. 

-١‏ أفضل ما RA‏ من نتائج. 

۷ ی الموازة اللكويّة الى اجا 

8- أفكارٌ بحثيّة لأطرّوحاتٍ علمية مُستقبليّة. 
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0 


تمهيد 
الكلمة العربية مركبة تركيبا تميزا؛ فهي تجمع بين خاصية الاشتقاق (Derivative)‏ 

وخاصية الالتصاق (Adhesion)‏ ويبدو أن الأمّة العربيّة تقدمت بلغتها تقدما Wh‏ 

حتى أن بلغاتها لم يكونوا في حاجة عند كتابتها إلى استخدام النقاط أو علامات الصبط 

(الحركات القصيرة والشَّدَّة والتنوين) لبيان المعنى. ورحم الله المتأخرين بأن قيد الله 

من أضاف التنقيط وترك ما دون ذلك من علامات لبداهة القارئ. وعندما ظهر علم 

حوسبة اللغة أضاف هذا الأمرٌ المزيدَ من التحديات أمام حوسبة اللغة العربية مقارنة 

بلغات أخرى ليس فيها هذا التحدي. 

وسنتناول في هذا الفصل سبعة حاور» هي: 

١‏ - تعريف بعلامات الصّبط/ التشكيل في اللّغة العربيّة. 

-Y‏ صياغة رياضية لحسم مشكلة التشكيل. 

.(Naive Bayesian Classifier) بايز المبسط‎ laa لات‎ 

. (Viterbi Algorithm) خوارزم فيتربى‎ - 5 

5 - مسائل أخرى متشامبة. 

1- أفضل ما Je‏ من نتائج. 

OU sotto‏ 28 ا 


١‏ - تعريف بعلامات التشكيل في اللّغة العربية 

توجد بعض اللغات مثل: اللغة الإنجليزيةء غالبا ما IÊ‏ نطق الكليات بها من 
خلال الحروف المكونة ها. حيث إن تتابع الحروف المتحركة والساكنة هو الذي يحدد 
النطق الصحيح للكلمة. ويطلق على مثل هذه اللغات (اللغات غير المشكلة). ومن 
ناحية أخرى» توجد بعض اللغات تعتبر نطق كلماتها غير محددة بالكامل بواسطة أحرف 
هجائها فقط. فعلى سبيل المثال: من الممكن أن تكون هناك كلمتان متطابقتان في التهجئة 
es‏ مختلفتان في النطق والمعنى تمامًا. لإزالة ذلك الالتباس يتم وضع علامات خاصة 
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dek‏ أو أسفل الكلمة لتحديد النطق الصحيح. وتلك العلامات تسمى «التشكيل»» 
واللغات التي تستخدم تلك العلامات تسمى اللغات المشكلة. واللغة العربية واحدةٌ 


من هذه اللغات. الواقع أن اللغة العربية لدا أدق نظام تشكيل مفصل. 
ويبين الجدول EI‏ علامات التشكيل في اللغة العربية ومغزى كل منها: 





التشكيل 


y 


cS cl 








العلامة 





أمثلة 


ei ciel مَصتّع)‎ ate. 
وو عو و 5 و‎ 
صراخ» عود‎ qu کتب»‎ 
عيال» مم‎ cigs كتاب»‎ 


Jl «gb «aul ise 


cule ds‏ طعامّاء ثراءً 


E» قصونء استعداث‎ Ca 


cela‏ ملاقاة» معانٍ» محا 


iwo 


کاتب» «JÉ (elio‏ 
o‏ عيد» «de‏ 
p o 5‏ 
بیوت» كوفىئ» روح 
لو oas.‏ 
نادی» مغال 
cele‏ والسّماء» 
2 
قانُواء أولئك 
هذاء ذلك» 


PETS ec الر‎ 


وه وأ- 





ملاحظات 


الأصل أن يوضّع تنوين الفتح 

على الحرف SUI‏ للألف 

يحتوي الحرف الأخير فقط 
على التشكيل 


يحتوي الحرف الأخير فقط 
على التشكيل 


عادة لا يكتب هذا الصنف 
من التشكيل 
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التشكيل العلامة أمثلة ملاحظات 
J+j= WINES‏ 
ve‏ في الحقيقة؛ لا تعتبر الشدة من 
s B Pr ás | g |w‏ ل mr‏ 
حق؛ ق = e T paru) Sté‏ 
عند النطو 
الصّبح؛ ص = ص ص 











tabu ال‎ d 

EE 

Y, ١‏ - حالة الحرف المشّدَّد (يحتوي على شدة / لا يحتوي عليها). 

y‏ الحرف المشكل. 

مع الأسف. فإن كتابة اللغة العربية لم تعد تتضمن علامات التشكيل. فقد استعاض 
الناس عن التشكيل بمعرفتهم بالنطق الصحيح من خلال السياق» وأصبح التشكيل 
qe‏ سد ورد الالتباس في بعض المواضع أو لأغراض تعليمية. s‏ | فإن 
المشكل NI‏ يجب أن يتدرب على تشكيل الكلات العربية Seas s‏ آلية للتعرف على 
i:‏ علامات تشكيل ناقصة بالكلمة العربية المدخلة. 
التشكيل التام: 

حيث يتم تحديد كافة المعلومات التشكيلية في اللغة العربية لكل حرف في الكلمة» 
متضمنة الحرف الأخيرء وأحيانا يتم تشكيل الحرف الأخير اعتمادًا على التحليل النحوي 
للكلمة؛ ويتم ذلك من سياق الجملة. انظر هذا المثال: 


àY ع1‎ 


E 


لا يوجد تشكيل: إذا كنت ذا قلب قنوع فأنت ومالك الدنيا سواء 
تشكيل جزئي: إذا كنت ذا قلب قنوع cool‏ ومالك الذنيا راء 
e$ SEES E esas‏ £93 تلك و اا 3a‏ 


i ades 
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-Y‏ صياغة رياضيّة لحسم مشكلة التشكيل 

دعنا نأخذ مثالا مبسطًا لفهم المسألة رياضيا؛ سنرمز للكلمة بالرمز اللاتيني 
(اختصارًا ل (word‏ ويسأل سائلٌ: لماذا تكون المعادلات بالأحرف اللاتينية؟ إن 
ذلك لوصل القارئ بمعارف العصر؛ فهذا الكتاب نريده أن يكون همزة وصل بعلوم 
ومراجع كثيرة» الأجنبي فيها أكثر من العربي بآلاف المرات؛ فلا ضير من ذلك؛ بل إن 
فيه نفع التعود على الانتفاع من علوم سبقنا فيها أجيالا. لعل أجيالا قادمة يتدفق منها 
عطاء أهل العربية من العلوم الحديثة ما يرجح كفة الترميز مها والكتابة مها ليعود النهل 
les‏ كان من قبل. 

فلو افترضنا أن الجملة تتكون من العديد من الكلمات كالآتي: 

Wy Was Mu WÛ J Win Wan Wy 

فهذه الجملة التي عدد كلماتها N‏ ورقم الكلمة في الجملة «[) و «...» تعنى أن هناك 
كلمات ها أرقام متصاعدة من آخر كلمة قبل هذه النقط إلى أول كلمة بعدها؛ سيكون 
لكل كلمة أكثر من تشكيل محتمل إذا أخذت مجردة عن سياق الجملة. وكمثال على 
ذلك: 

١‏ - التلميذ كتب الدرس كيب 

CS التلميذ حمل كتب المدرسة سه‎ -Y 

«كتب» يمكن أن تأخذ تشكيلات كثيرة ولكل معنى مختلف مثال: 


في بعض الأحيان تكون الأشكال الصحيحة المختلفة لتشكيلات الكلمة بالعشرات. 
ولتيسير ذلك.. نفرض أن عندنا عددا حدودا من الاحتالات لتشكيل كلمة بينهاء 
ولتكن كلمة ونفرض أن لا M‏ من الحلول (Solutions)‏ وتعال نسمي هذه الحلول: 
الحل الأول S,‏ والحل الثاني ر8ء... وهكذا. 

وتعال أيضا نرمز للسياق (Context)‏ بالرمز cC‏ ويمكننا الاصطلاح علي أن السياق 
هو باقي كلمات الجملة كلها أو أن نحدد هذا السياق بعدد محدود من الكلمات قبل وبعد 


zd خا‎ 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


هذه الكلمةء هذا كله جائز. تعال نُسغ المعادلة الرياضية Jie Y‏ كل حل: 

P(s,/C) هو‎ C باعتبار السياق‎ cs, :١ احتمال الحل‎ - Y 

-Y‏ احتمال الحل ۲: cs,‏ باعتبار السياق C‏ هو(2)5,/0 

2)5,/0( باعتبار السياق © هو‎ cs, Y احتمال الل‎ - Y 

وهكذاء سواء أكان هناك حلان أو أكثر فإننا نفاضل بين هذه الحلول ونختار الأعلى 
احتمالا. ولكن كيف يمكن UJ‏ أن نحسب هذه الاحتالات؟ الذي نملكه هو ذخيرة 
لغوية للتدرب عليهاء بها العديد من المرات التي مر بها كل حل من حلول كلمة W‏ 
والذي نملكه أيضا هو عزل المرات التي جاء فيها كل حل» وعندئذ تكون حساباتنا ل 
P(C/s)‏ ولیس PG/O)‏ (حيث [ هنا تشير إلى رقم الحل)؛ وذلك لأننا نعزل الجمل 


:(Bayes) 
P(C/s)) P(s) 


(D  PG/O- gro 


U‏ كان المقام ثابتا لكل الحلول» فلا داعي لحسابه» ويكفي أن نحسب بسط يمين 
المعادلة .)١(‏ وطاما أن البسط للحل الصحيح هو الأعلى فإن ذلك يعني أن هذا JH‏ هو 
الأكثر احتمالا. ولأننا لو حذفنا المقام فلن يمثل الطرف الأيسر Ne‏ - لكنه يتناسب 
مع tU VI‏ فسوف نعيد صياغة المعادلة مع إعادة تسمية P(s/C)‏ ->+(8)8/0. 

(2) g(s/C) = P(s/C) 


ويبقى الأمر کا هوء أنه كلما زاد احتمال أي حل زادت قيمة g(s/C)‏ لهذا الحل. 
كيف نحل هذا النوع من المسائل رياضيا؟ سنجد إجابة هذا السؤال فيا يلي. 


(Classifier Bayesian Naïve) بايز المبسط‎ caa ۴ 


الواقع OL‏ هناك العديد من الطرق والخوارزمات الرياضية لحل هذا النوع من 
المسائل وتسمى هذه الخوارزمات «Classifiers «oU lb‏ ويحتاج شرحها بالتفصيل 
إلى كتاب مفصلء ولكننا هنا اخترنا بعصا من هذه المصنفات» وسنبدأ بمصنف يعد 


عات 
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بسيطا ولكنه فعال ونتائجه لا بس cl‏ ويسمى «مصنف بايز المبسط) Bayes Naïve)‏ 
(Classifier‏ وجريا على عرف المحترفين من الكتاب عند استخدام مصطلح كثير 
الاستخدام أن يختصروا اسمه باستخدام الأحرف الأولى» أي (م ب م) ويختصرونه 
بالإنجليزية (NBC) LAÍ‏ ويسمى المبسط لأن هناك فرضية رياضية لتبسيط JH‏ 
وهي اعتبار أن الكلمات التي تمثل السياق مستقلة بعضها عن بعض - وإن كان ذلك 
في الحقيقة غير صحيح OX‏ بعض الكلمات يقترن كثيرا بكلمات أخرى - وهذا الفرض 
سمح لنا بإمكانية التعامل مع السياق بشكل مبسط. والسياق هو مجموع الكلمات 
التي سبقت الكلمة مباشرة أو تلتها. ويجوز لنا هذا الفرض أن نكتب سياق الكلمة W,‏ 
كالآق: 


G) P(O=P(w) * P(w,)...P(w, ) )*P(w,) )...PQw,) 
كالآتي:‎ (Y) وكذلك يمكن إعادة كتابة المعادلة‎ 
(4) g(s/C) -[PQw/s) * P(w/s)...P(w, /s) 
*P(w, /s.)...P(w,)] * P(S) 
من حساب‎ LS يجعل الحل في متناول أيدينا. فلو أننا‎ CE) إن صياغة المعادلة‎ 
نكون قد حسمنا الأمر كله‎ P(s) ,(للل,...,1-) » ثم حسبنا أيضًا‎ PQw/s) الكميات‎ 
وعرفنا أي الحلول في هذا السياق هو الأوفق. إن حساب هذه الكميات يمكن الرجوع‎ 
وكذلك فصل «نمذجة اللغة» . ولا يفوتنا هنا أن‎ co (Gm VIE إليه في ملحق-١ لنظرية‎ 
يسمى النحو الأحادي» وهو احتمال أن تأتي الكلمة بهذا الحل‎ PCE) الاحتمال‎ ob نذكر‎ 
عموماء بصرف النظر عن السياقات المختلفة (أي: احتمال وجودها ككلمة مفردة).‎ 
3455: روا‎ s cse iba .مو ماده القول ديصل‎ OD ds ads ds 
بين| كلمة «قال» من مادة قيل (أي النوم بالظهيرة)‎ ٠ , 444 إلى أكثر من‎ - «JU» كلمة‎ 
.٠, ٠٠١ إلى‎ (JU قد لا يصل نحوها الأحادي - مشروطا بورود كلمة‎ 
والجدير بالذكر أننا سوف نقابل عند تطبيق هذا الخوارزم أو هذا المصنف مشكلة‎ 
وهي أن بعض الكلمات لم نرها من قبل في الذخيرة اللغوية التي تدرب النظام عليها.‎ 
سياق جديد إذا أتت كلمة واحدة لم تر من قبل» فسيكون احتمال ورودها صفراء‎ d 


|۹ £ 
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وسوف نضرب في صفر فتكون النتيجة صفرا مهما كانت قوة شواهد الكلمات الأخرى 
في السياق. ولقد واجهنا هذه المشكلة في فصل نمذجة اللغة واستطعنا أن نمنع هذا 
الصفر بافتراض نسبة احتمال صغيرة نسبيا لما م نره من الكلمات. 


(Algorithm Viterbi) فيتربي‎ e خوار‎ - ٤ 
مشهورة في حسم مثل هذه المسائل. منها‎ sé pl خوارزمات أو مصنفات‎ ia. 
ويعتمد هذان‎ (A search) (بحث *#) أو‎ Š; (Viterbi search) EN 
وعادة يبحثان عن أفضل مسار عبر الجملة‎ [To ء٠٤[ المصنفان على النحو الإحصائى‎ 
بالكامل أو جزء منها. ولكى نتخيل كيف تعمل هذه المصنفات تعالوا نأخذ مثالا مبسطًا:‎ 


بالتحليل الصرفي هذه الجملة البسيطة يمكن أن نجد لكل كلمة عددًا من الحلول 


المحتملة: 

| tgk ذهب الولد‎ l 
للمدْرَسَةٍ‎ n -— Me 
ذهب الولد للم‎ Xe 
Ls Ye 

















لننظر إلى كافة الحلول الموجودة (وقد تكون هناك حلول أكثر لبعض الكلمات - وبالتالي 
للجملة ككل ولكننا سنكتفي ede‏ الحلول حتى نتمكن من تتبع المثال). إذا تأملنا كل 
المسارات الممكنة من الكلمة الأولى إلى الكلمة الأخيرة سوف نجد VY ell Gl‏ مسارًا 
(هذا لو اكتفينا بالحلول المبينة في الجدول فقط) ولكل مسار يمكن حساب A‏ 
باستدعاء حسابات النحو العددي للكلمات. as‏ هذه الأنواع من المصنفات إلى 
حساب أفضل هذه المسارات» أي أعلاها احتمالا. بالطبع هي أكثر تعقيداء ولكن عادة 
تعطى نتيجة أفضل من المصنف الأول (م ب (e‏ أو NBC‏ كما يمكن حساب عدد هذه 
المسارات Js‏ عدد حلول الكلمة الأولى & # عدد حلول الكلمة الثانية + عدد 
حلول الكلمة الثالثة. وفي حالتنا = Y‏ ٭ ۲ ٭ Y‏ = ۱۲ حلاء أو إن شثت قل: مسارًا. 


—\ +0- 
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وتقدم طريقة أو خوارزم فيتربى حلاً لنفس المشكلة» ولكن بدون فرضية استقلال 
كلمات الجملة بعضها عن بعضء ولذلك فنتائجها في الغالب أفضل من نتائج خوارزم 
(م ب م). ولتيسير فهم خوارزم فيتربي (Viterbi)‏ دعنا نأخذ مثالا مبسطا: 

هب أن عندنا ila‏ من كلمتين فقط ولكل كلمة حلان. 


الكلمة الثانية Pass w,‏ " الكلمة الأولى w,‏ 
11 
S‏ 
k Pass 3 21‏ " 
الحل الأول للكلمة الثانية 1385 Pass2‏ الحل الأول للكلمة الأول 
m S5‏ 
الحل الثاني للكلمة الثانية 4 Pass‏ الحل الثاني للكلمة الأولى 


الشّكل *-1: المسارات الممكنة لجملة من كلمتين» ولكل كلمة حلن. 


Pass4 = eo المسار‎ cPass3 = «Jit المسار‎ cPass2 = المسار الثاني‎ cPass1 = المسار الأوّل‎ 


بافتراض أن (Passi?‏ تعنى احتمال المسار 1. فإن احتمال المسارات المختلفة: 
),,P(s,,)*P(S,,/5*)بدlية‏ الجملة Pass] = 2)5,(* P(s,/‏ 


21 11 


Pass2 = 2), (* P(s,/ الجملة‎ ةيادب(*P(s,ر)*P(Sرر/5,,)‎ 


لد 22 


Pass3 = P(s,,)* P(s, / ,5)*(بداية الجملة‎ )*P(s, /s,.) 


21 12 


Pass4 = P(s,,)* P(s,/ الجملة‎ &,15)*P(s, )*P(s, /s,.) 


cl‏ المسارات أعلى Yel‏ نختار التشكيلات عليه لتكون هي الحل. 

ولو نظرت ودققت في الحسابات للمسارات الأربعة» ستجد أننا نكرر حساب 
أجزاء ليست قليلة مع حساب أجزاء تم حسابها في مسارات أخرى؛ فلو أننا استخدمنا 
ما حسبناه من قبل» يمكن أن نوفر جهدا كبيرا. وحتى تتصور عدد المسارات الممكنة» 
فلو لدينا جملة مها YO‏ كلمة (وهو عدد قريب من متوسط عدد كلات الجملة العربية) 
ولكل كلمة ثلاثة حلول (بافتراض تساوي عددها لسهولة حسابها - إذ في الواقع يمكن 


5 وا- 
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أن يكون للكلمة حل واحد أو ربها عشرات الحلول)؛ وبالتالي يكون عدد المسارات 
(يساوي حاصل ضرب (عدد حلول الكلمة الأولى) (عدد حلول الكلمة الثانية) (عدد 
7 حلول الكلمة الثالثة)... وهكذا نضرب Y‏ في نفسها YO‏ مرة)» وعليه» ستكون 
النتيجة ST‏ من ۸۷٤‏ مليار حل أو مسار محتمل. 

أي Gl‏ في حاجة لحساب احتمالات لأكثر من ٤‏ ۸۷ مليار مسار محتمل لحملة واحدة؛ 
ولو افترضنا أن قوة ا لحاسب ستسمح بحساب احتمال المسار في ١‏ مللي ثانية» فسنحتاج 
إلى أكثر من AVE‏ مليون ثانية أي حوالي ۸ YT,‏ سنة من الحساب المتصل. 

تعال نفرض أن قوة الحاسب ءتضاعفت آلف مرة. سنختصر الحل في cielu ۲٠١‏ 
أي حوالي عشرة أيام فقط! لن يكون هذا JH‏ عمليا لولا طرق سريعة لحساب أفضل 
المسارات» ربا لا تتجاوز جزءًا من الثانية الواحدة بحساب هذه الأيام. 

لا بد من التنويه هنا أننا لو لم نتتبع بسهولة بقية الحل هذا الخوارزم فإن ذلك لن يقلل 
من فهمنا لروح الحل الذي أسلفناه. 


تعال نأخذ المسألة أعمق قليلاء وهي Y‏ كلمات مع om‏ لكل كلمة. 


Wı wW, W4 
Sii $5 83 
Siz ووه‎ 85 
ويكون لدينا إذن ثمانية مسارات كالآتي:‎ 

28551 = (s. $4, S, 

Pass2 = (84, $,, J 

Pass3 = ($,, وووة‎ $4) 

Pass4 = (s,, S> S3 

Pass5 —(S,, $4, S 

Pass = (s,, S, S 

Pass7 = (8,,, $,,, S, 

Pass8 = (s,,, $,,, ر‎ 


لاوا - 
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وفي هذه الحالة يكون حساب المسار الأول ij Js)‏ المسارات) ys‏ 


(بداية الحملة 6 *(بداية الجملة/, 2)5*( Pass1—P(s,,‏ 


PCS‏ ررد 
(بداية الجملةى *P(s, )*P(s, /s, ,s,‏ 

هذا يعطي حسابا دقيقا لاحتمال المسار الأول» ولكنه يتطلب حساب وتخزين مسبق 
لاحتمالات من النحو الثلاثى 3-gram‏ مثل (بداية الجملة» ,,7)5,,/5 ونحو رباعى مثل 
(بداية الجملةء Ps,/5,,5,‏ وبالرغم من أن هذا يعطى حلا أكثرٌ ais‏ إلا das‏ 
يتطلب ذاكرة أكبر وحسابات أكثر بكثير من النحو الثنائى. ولذلك يمكن تقريب الحل 
ويسر حسابة Bla‏ عل الذاكرة المطلوية eo‏ اسب ed Gus]‏ الغا 
co à 5. Q-gram)‏ الحل كالآتي: 

Passl^ P(s,, )*P(s,// )*P(s,) 
*P(s, /s, ) *P(s,.) *P(s, /s,.) 

ace‏ حساتب السار الأول Pass]‏ حسينا السار Mi iH‏ فهل عند حساب 
المسار الثاني Pass2‏ سنكون في حاجة لإعادة حساب هذا الجزء مرةً أخرى؟ إن Pass2‏ 
و à oU LZ, Passl‏ مسار 73 وهو( ر5/ ,5). إذن لا داعي لإعادة حسابه ثانية. 
ويتكرر الموقف بين المسارين 23553 و 23554 في حساب (ررؤ/,5)» إذ لا داعي لحساب 
المسار مرتين» وكذلك بين 292555 و 23556 فإن حساب ) (S, /s,‏ مرة واحدة يكفى. 
s e ET‏ بين Pass7‏ و 23558 فإن حساب ) (s, /s,‏ يكفي مرة واحدة. l‏ 

ولو أردنا ألا نكرر ما سلف وحسبناه» ثم أضفنا إلى ذلك معلومة أخرى مهمة» هي 
Gl‏ إذا استطعنا عند أي نقطة أن نحسب أفضل المسارات إليها فلسنا في حاجة للبدء 

من أول كلمة في كل مرة» بل يكفي أن نرجع للعمود السابق فقط لنكمل JH‏ عمودا 
بعد عمود ونحن نتحرك من اليسار إلى اليمين (الواقع أن الكلمات العربية تتحرك من 
اليمين لليسار» ولكن GY‏ هذه المسائل موجودة بالكتب الأجنبية من اليسار لليمين؛ 
وحتى يسهل على القارئ الحل إذا نظر في هذه الكتب فإننا تحركنا في نفس الاتجاه» وهذا 
لن يغير الحل في شىء). يمكن أن نحسب الآن المسارات جزءًا جزءًا (بدءًا من اليسار إلى 
cC‏ وما حسبناه من أجزاء المسار ونحن نتحرك عليه من الكلمة الأولى إلى الكلمة 
الأخيرة لحاكد باستمرار أثنا تحسب del‏ المسارات Nie‏ 


A= 
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ولسهولة تتبع الحل تعالوا نرمز إلى أفضل الحلول حتى النقطة التي نقف عندها 
بالرمز ,1 » والذي يعني أن عند هذه النقطة سنجد احتمال أفضل مسار من أول كلمة 
حتى النقطة ij‏ هو 1 . 
يمكن شرح الخوارزم المسمي «فيتربي» كالآتي: 
٤‏ و١-‏ نبدأ بحساب احتمالات الوصول من حلول الكلمة الأول إلى حلول الكلمة 
الثانية. 
* نحسب احتتالات الحل الأول للكلمة الأول مع الحل الأول للكلمة 
الثانية. ثم احتمال ا حل الثاني للكلمة الأولى مع الحل الأول للكلمة الثانية 
ونأخذ أعلى الحلول احتمالا ونسميه Ly‏ والرمز ,ر1 يعنى أفضل JAH‏ 
عند الموضع Y Y‏ أي الصف الأول والعمود الثاني. 
؟ نكرر مع الحل الثاني للكلمة الثانية لنصل إلى La‏ 
5 و 7- نعيد الكرَّةَ مرة أآخرى» مع الأخذ في الاعتبار أننا عند حساب أفضل المسارات 
من الأول إلى الآخر سنستفيد من الحسابات السابقة» فلا نبدأ دائم) من الأول» 
ولكن a‏ من الكلمة السابقة فقط لأننا قمنا با يلزم قبل ذلك من حساب 
أفضل المسارات Yel‏ حتى هذه الكلمة. 
٤‏ , 7- تكون القيمة الأعلى بين Ly‏ و La‏ هي احتمال المسار الأعلى احتالا. 
E‏ - ويمكن معرفة المسار (أي أفضل الحلول للكلمات) بالاحتفاظ عند كل 
خطوة بأفضل المسارات التى انتهينا إليها عند هذه الخطوة. 
لا ينقصنا الآن إلا Zoe Jis‏ لتوضيح المسألة. لتأخذ هذا المثال: 
«ذهب علي بالكرة» . تعال نفرض أن لكل كلمة حلّين فقط لتيسير فهم حل المسألة 
cR‏ شرف de.‏ 
C$‏ (أي تحرك» فعل ماض» حل1 — (s,‏ 
CAS‏ (معدن» اسم» حل2 —€ (s,.‏ 


—Y4Q- 
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le»‏ نفرض U‏ حلان: 

عَلَ (حرف cm‏ حل1 -> (s,‏ 

علي (اسم «e‏ حل2 -> (s‏ 

"en 

بالكرّة )855 بمعنى مرة» حل1 — (S,‏ 

(S, >- (كرة يلعب بهاء حل2‎ IL 

وتعال نفرض توافر هذه الاحنيالات من مدوئة ) حالتنا تخيلية) حسينا منها 
الاحتالات الآنية: 


uni-gram أو‎ 1-gram النحو الأحادي‎ 
P(s,, ) -0.03, P(s,, ) 70.05, P(s,, ) - 0.01, 
P(s;, ) —0.02, P(s,, ) —0.01, P(s,, ) —0.05, 








bi-gram 512-gram النحو الثنائى‎ 


P(s 31/s 21) P(s, /s,, )«0.0 

P(s Il/Al.o (الحملة‎ = 1 31 S21 
i 7 m ! P(s,/ رو‎ (> 0. 2 P(s, / S) 0. 05 
P(s,/s,, )=0.1 P(s, /s,, )2:0.0 

P(s, (الحملة بداية/,‎ = 0.05 2/51 3/8) 
(الجملة بداية/ي,5)‎ P(s, /s,, )-0.1 P(s, /s,, ) = 0.05 
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الجدول ۲-۳: يوضح الحل الكامل JUL. 5 ga JU‏ التشكيل «ذهب على بالكرة». 





الحل الأول للكلمة الثالثة  =s‏ بالگرّة 
أفضل الحلول حتى هذه النقطة 


L21 * P(S31/821) * P(s31) 
L22 * P(s31/s22) * P(sai) 


75*1075*0*0.0120 
6 x 10-6 + 0.05 + 0.01 = 3 107? 


= 3 + 107? —(s1,,$22. $32) 


L31 = max 


max f 


الحل الثاني للكلمة الثالثة ,يو - jS,‏ 
أفضل الحلول حتى هذه النقطة 


L21 * P(S32/821) * P(sa2) 
L22 * P(s32/s22) * P(S32) 


75*1075*0*0.0520 
6 x 10-6 + 0.3 * 0.05 = 90 107? 


—90»107? (S41, S22; $32) 


أفضل المسارات 


L32 = max 


max f 





الحل الأول للكلمة الثانية رو = عَلَى 


أفضل الحلول حتى هذه النقطة 


L11 * P(s21/s11) * P(s21) 


Li = max | 
A L12 * P(s21/s12) * P(sz1) 


0.003 « 0.05 * 0.05 = 7.5 « 1076 
0.001 0.1 + 0.05 = 5 * 1076 


= 7.5 + 1076 >(s11, 512) 


max l 


الحل الثاني للكلمة الثائية - ررء= علي 


أفضل الحلول حتى هذه النقطة 
L11 * P(s22/s11) * P(S22)‏ 
L12 * P(s22/s12) * P(s22)‏ 


0.003«0.2«0.0126* 1076 
0.001 * 0.1 * 0.01 = 1 * 1076 


= 6 * 1076 >(s11, S22) 


L22 = max f 


= max | 





الحل الأول للكلمة الأولى 


CAs] 


أفضل الحلول حتى هذه النقطة 


L447P(s14/ (بداية الجملة‎ 
*P(s,,) —0.1* 0.03 = 0.003 


الحل الثاني للكلمة الأولى 


2-9 
2وحدهب 


أفضل الحلول حتى هذه النقطة 
L1? = P(s12/‏ 


0.05*0.02—0.001 
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ومن الجدول (Y Y)‏ يمكن أن نستنبط أفضل الحلول عندما وصلنا للمحطة الأخيرة 
هو الأكثر احتمالآ ثم نتتبع أفضل المسارات على الإطلاق. سنجد أن حل (S,55,,5,‏ 
هو أفضل المسارات احتمالاء وهذا يعني أن تشكيل الحملة يكون كالآتي: 

vy de cé 

وإذا أخذنا جملاً طويلة» ولبعض AS‏ حلول كثيرة تصل للأربعين حلاء سنجد 
Ul‏ نبلغ هدفنا في أقل من ثانيةء UN‏ كلما تقدمنا في الحل نحسب أفضل المسارات 
من أول كلمة إلى النقطة التي نحن عليها دون عناء البدء دائم) من الأولء بل نبدأ من 
الكلمات التى تسبقنا فقط. 
«الباحث #) يعتمد على n-gram‏ أعلى من cbi-gram‏ ويعطى نتائج أفضل بكثير. 
كا أن هناك أيضا مصنفات أخرى مثل الشبكات العصبية وآلات العم HEN‏ 
(Support Vector Machine)‏ وهى مصنفات حديثة 6 وذات مقدرة هائلة» لولا 
ما تحتاجه من إمكانيات عالية» سواء في الذاكرة أو القدرة الحسابية. انظر الملحق - Y‏ 


-٥‏ مسائل أخرى متشامهة 

هناك مسائل لغوية أخرى كثيرة لها نفس الشّكل الرياضيّ الذي نواجهه عندما 
تصدينا لحل مشكلة التشكيل الآلي. إن لدينا مستويات مختلفة لمشكلات اللغات الحية 
عمومًا واللغة العربية خصوصًاء بدءًا من التشكيل الآلي أو الحسم الفونولوجي إلى 
الحسم الدّلاللي على مستوى الجملة. كلها تشترك في أن الحل يكمن في السياق. ومن 
هذه المسائل: 

-١ 5‏ التشكيل JII‏ لبنية الكلمة العربية (المشكلة سالفة الذكر). 

(body-word) Diacritization Automatic)) . 
. Automatic Diacritization للكلمة العربية‎ JYI التشكيل الإعرابي‎ -Y 5 
.(Morphological analysis) التحليل الصرفي للكلمة العربية‎ -Y , o 


5 - التحليل التركيبى أو النحوي للجملة العربية (Automatic Parsing)‏ . 


-\\Y- 
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«aS Ms التعرف على «أسماء الكائنات» من السياق (مثل:أسماء الأعلام»‎ -١ , o 
.(Named Entity Recognition) (ed! وأسماء المؤسسات. والأحداث....‎ 


و - فك الالتباس (Word Sense Disambiguation) (SJ gyi‏ . 
وهكذا نجد العديد والعديد من التقنيات التي لما نفس روح المشكلة الرياضية 
ونفس روح الحل الرياضي مع اختلافات بسيطة من مشكلة إلى أخرى. 


-٦‏ أفضل ما Je‏ من نتائج 

وهنا لا بد أن نسجل ملحوظة مهمة» وهي أهمية أن تكون هناك وسيلة لقياس 
النتائج لأنظمة ختلفة بنفس الطريقة وباستكداء کی الات ی don ji‏ مسطرة 
القياس إن جاز التعبير. 

وفي جال التشكيل dY‏ تمت تجارب في JS‏ من BM‏ وجامعة كولومبياء وش ر كة 
RDI‏ وكانت النتائج المعلنة كا هو موضح في الجدول الآتي: 


كل تشكيل الكلمة تشكيل الكلمة عدا 


الحرف الأخير 
نسبة الخطأ 
A E adi‏ 
TF yÀ|g‏ 
3 13 133 


نموذج مقدم من د/ عماد زیتوني مع فريق Ar, | 7V,A | 70,0 JNA‏ 
عمل في IBM‏ سنة ٠7٠١5‏ 


نموذج مقدم من د/ نزار حبش مع فريق ; . , l‏ 
عر فو هع رايا MEE M uE‏ 


eue‏ مدع I cor‏ كس رشو انام قولف | YS ma ruo‏ قيرز 
عمل من شركة ۸21 Y: AX,‏ 


الجدول Y-Y‏ نتائج التتشكيل IBM) QI‏ < جامعة كولومبياء „(RDI‏ 


ربا تكون هناك أنظمة أخرى أفضل» ولكن لم يعلن عنها ول تحكم على نفس قاعدة 
البيانات. 
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s) SI ad‏ إل أن zeli‏ الببانات قن call YAA (Je col‏ كل للقدريب 
و57 ألف كلمة للاختبار. وباختصار قاعدة البيانات وجدنا أن كلات الاختبار 
وكلمات التدريب من نفس الطبيعة ومتقاربة جدا. ولا حاولنا تجربة بعض هذه الأنظمة 
على نصوص أخرى وجدنا أن نسبة الخطأ ربا تصل إلى 75/ أو حتى /7١‏ في بعض 
الأحيان. 

ولكن لحسن eol‏ فإن تشكيل بنية الكلمة أهم بكثير من تشكيلها الإعرابي» ونسبة 
الخطأ فيه أقل كثيرًا. o3‏ الإنسان العريّ - غير المتخصص في اللغة الآن d-‏ تعد 
(وللأسف) حساسة لأخطاء التشكيل الإعرابي 543 حساسيتها لتشكيل بنية الكلمة. 
فالخطأ في تشكيل بنية الكلمة يغير الكلمة ومعناها تغيرا كبيرا على الأذن» فخذ هذا 
لمثال: الفرق بين (CAS C)‏ فرق كبير. فالكلمة الأولى فعل ماض والثانية اسم» 
وإذا استخدمنا كلمة cuo‏ مكان أخرى» فسيضطرب المعنى في أذن السامع كثيراء حتى 
لو Sd.‏ من استنباطه لاحقا. 

وجدير بالذكر of‏ هناك توجُهات حديثة للاستفادة من التطوّر ا هائل والحادث في 
جال تسل الآلة الحميق لل scat‏ التمكيل II‏ وما US‏ من شكلات: dd‏ 
البعض مُعالجة مشكلة التشكيل عبر EIE ia JUI‏ وني هذه الحالة يُعتبر التص الخام 
والنّسٌّ بعد التشكيل كلغتين» والمطلوب إجراء ترجمة آلية من النص الخام إلى النص 
المشكّل. وفي كل الأحوال تحتاج الوسائل الحديثة والعميقة لتعليم الآلة كميات ضخمة 
من النصوص المشكّلة حتى تتمكن من التعلم وإعطاء نتائج جيدة. 
۷- طبيعة الموارد اللََوبة التي نحتاجها 

E e Eid AES ANE eA 
ففي حالة التشكيل الآلي نحتاج إلى مدونة مشكلة بالكامل» أي: كل حرف فيها مشكل؛‎ 
وليس على تشكيل جزئيٌ لبعض الحروف التي تفك الالتباس بالنسبة للقارئ العربي.‎ 
ولكي نصل إلى دقة مناسبة نحتاج لمدونة مشكلة كبيرة وتغطى المجالات المطلوب‎ 
التشكيل لنصوصها. وني المجال الواحد قد نحتاج لمدونة با ملايين من الكلمات حتى‎ 
نتمكن من مقابلة معظم الكلمات المستخدمة في المجال» إذ أن أكبر سبب للأخطاء في‎ 


efe 
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الطرق المعتمدة على تعلم الآلة هو عدم رؤيته للكلمة من قبل بالكلية أو مرت عليه في 
المدونة في سياقات ختلفة تمامًا. 

المدونات الكبيرة جدًا o)‏ بعشرات الملايين من الكلمات) والتي يمكن أن تخفض 
نسبة الأخطاء بشكل JU‏ مكلفة te‏ وفي المقابل لا توجد (حتى الآن) مجموعة 
متكاملة من القواعد التى يمكن الاعتاد عليها لحل المشكلة. وهناك حل وسطء وهو 
soa‏ في ده مليون كلمة Olis‏ مع بعض القواعد المساعدة في تخفيض 
نسبة الأخطاء. إلا أن القواعد تتطلب الاستعانة بتحليل لغويٌّ مثل المحلل الصرفٌ» 
حتى يمكن أن تبنى القواعد على الشواهد اللغوية في هذا التحليل. 

ولأيّ نظام للتشكيل فعال لا بد من التعامل مع الظواهر اللغوية كثيرة الورود. ومن 
هذه الظواهر: ظاهرة الكلمات الأجنبية والمكتوبة باللغة العربية (مثل أسماء الرؤساء 
بوش وأوباما .. إلخ)؛ هذه الكليات قد يصل متوسط ورودها لأكثر من ٥‏ في كثير 
من النصوص الحديثة. ولأن معظمها أساء لكائنات (أسماء أشخاص أو مؤسسات أو 
أماكن.. إلخ) فإنها كثيرة ودائمة التغير. فما ورد منها كثيرًا في المدونة المشكلة يتم حسمه 
كالكلمات العربية؛ وعدا ذلك فإننا نحتاج لبعض القواعد لتعلم لتشكيلها. وهناك 
مدرسة عملية تجمع ما ورد في المدونة من كلمات أجنبية قبل وبعد التشكيل وتستخدم 
واحدة أو أكثر من خوارزمات التعلم QI‏ لتعلم تشكيل مالم يرد في المدونة. 

وفي الختام تجدرٌ الإشارة إلى أن هناك تقدمًا ملحوظا في مجال استخدام الشبكات 
العصبية في تلف ميادين حوسبة اللغات الحية» e‏ في ذلك التشكيل الآلي. ولكن ما 
زالت نتائج الطرق التقليدية تزاحم نتائج الطرق الحديثة» OS‏ الطرق الحديثة في حاجة 
إلى كميات ضخمة من البيانات المشكولة يدويا. وهذا ليس سهلا بالنسبة للنصوص 
المعاصرة. يتضح الفرق حين JUS‏ نصوص تراثية» إذ تعطي الشبكات العصبية نتائج 


-١١6ه‎ 
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£ 


۸- أفكارٌ بحثيّة لأطرُوحاتٍ £o‏ مُستقبلية 

-١ A‏ تصميم مدونة مشكّلة صغيرة نسبيًا؛ ولكن تظل ممثلة جيدة للمجال الذي 
Cus ad euo‏ کار مواضوعاتها دص تحقق كلانيا أغل det Aus‏ 
لكلات المجال. 

A‏ - استخلاص مجموعة من القواعد الممكن تنفيذها É pulo‏ إن هناك كثيرًا 
من القواعد لا يمكن تنفيذها حاسوبيًا. مثال ذلك: الحملة الاسمية تتكون 
من مبتداً وخر» والخبر مع المبتدأً o‏ المعنى. هذه قاعدة تحتاج لعرفة 
معاني الجمل؛ el XT‏ لا؛ وهذا لم نصل له بعد. إن إذا قلنا: إن الصفة تتبع 
الموصوف في التعريف والعدد والنوع» فهذه القاعدة يمكن تطبيقها حاسوبيًا. 
فبالرجوع إلى محلل صرفي للغة العربية» يمكن معرفة كل المطلوب. وبالتالي 
يمكن حسم الصفة بالقواعد. 

A‏ - دراسة مدونة مشكلة CT‏ وتحليل الأخطاء الناجمة عن المشكل VI‏ ته 
وضع القواعد التي تقلل هذه الأخطاء. هذا البحث يمكن أن يؤدي إلى 
نتائج أفضل عمليًا من كل الحلول المتاحة. ومن الخبرة في هذا المجال أن 
عددًا قليلاً من القواعد مسئول عن نسبة كبيرة من الأخطاء. وبديبى أن 
ذلك يحتاج إلى تحليل وتصنيف للأخطاء قبل وضع القواعد. 

E, A‏ عمل مجموعة من القواعد التى يمكن استخدامها لتشكيل الكلمات الأجنبية 
الواردة في النصوص الحديثة. هذا البحث يمكن أن يساعد على حسم عدد 
لا بأس به من الكلمات الحديثة. إن هذه دراسة تتداخل فيها الصوتيات 
العربية واللاتينية. 
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الفصل الرابع 
التنقيب 4 النصوص 


المبحث X‏ تلخيص النصوص. 
المبحث الثّالث: استنباط اتّجاهات الرَّأي العامّ. 
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مصطلح cei‏ في النُصُوص - والبيانات 
بصفة عامة - مأخوذ من مصطلح التنقيب 
في المعادن الثمينة وسط تلال من الأشياء. 
d erar‏ النضوص كما g «e‏ 
هيرست» - من جامعة بيركلي بكاليفورنيا في 





۴۳م - هو استخدام الحاسوب في اكتشاف Ne‏ 
معلومات غير معروفة مسبقا من مصادر متنوعة الشكل :١-4‏ التنقيب عن البيانات 
فق E‏ فى قابا ع الل see‏ المعادن الثمينة. 
النصوص. ومن هذه المعلومات - مثلا - التعرف على أسباب بعض الأمراض النادرة 
من خلال فحص وثائق العلوم الحيوية المختلفة» واكتشاف البروتينات التي تتفاعل مع 
غيرها من البروتينات الأخرى. وهي خاصية مُهِمّة جداء تُؤخذ في الاعتبار عند تصنيع 
الدواء وعند وصف العلاج. 

ويعتبر التنقيب في النصوص أحد علوم الحاسب الحديثة» وترجع نشأته إلى منتصف 
السبعينيات عندما اقترح «جيرارد سالتون» - من جامعة كورنيل - تمثيل النصوص 
المكتوبة باللغات الطبيعية بواسطة متجهات رقمية والتعامل معها بالأساليب الرياضية 
المستخدمة في التعامل مع المصفوفات العددية والأساليب المستخدمة في التعامل مع 
قواعد البيانات النمطية. وقد مكنّ التقدم التكنولوجي هذا المجال من المضي قدما 
خلال العقد الماضي بصورة ملموسة. 

وكانت أبحاث العالم الأمريكي «دون سوانسن» - من جامعة شيكاغو - علامة 
فارقة في مولد علم التتقيب في النصوص. 

فقد لاحظ «سوانسن» ضعف التواصل العلمى بين المتخصصين في حالة اختلاف 
مجالاتهم العلمية الدقيقة وعدم المعرفة بها يدور à‏ المجالات الأخرىء وبالتالي عدم 
الاستفادة بها. ولذا قام - بالاشتراك مع زميله نيل سالهيسر - ببناء نظام لاكتشاف 
سلاسل من النتائج والآثار السببية من خلال فحص الدوريات العلمية في التتخصصات 
المختلفة. ونتيجة لذلك فقد اكتشف «دون سوانسن» في ۱۹۹۷ أن نقص الماغنيسيوم في 
جسم الإنسان هو من الأسباب الرئيسية للصداع الذي يصيبنا. هذه المعلومة لا توجد في 
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أي كتاب أو دورية علمية ولكن تم استنباطها بواسطة نظام التنقيب بالبحث التتابعيّ 
في دوريات وقواعد البيانات الطبية وفي دوريات ومنشورات المعلوماتية الحيوية عن 
أسباب الأمراض. في حالة أمراض الصداع تم التوصل إلى OE‏ سلاسل سببية من 
خلاها تم الربط بين الصداع وبين نقص ال ماغنيسيوم. 

وجدير بالذكر أن التقنيات والأساليب المستخدمة eid‏ في النصوص تستخدم 
ual‏ محا لات أخرى عديدة» مثل co Ge‏ التنقيب في البيانات» ومجالات التعرف على 
الصورء ومجالات التعرف على الكلام» ومجالات التعرف على الكتابة. وبالطبع يفيد كل 
منها الآخر. 

iil Gab‏ في النصُوص عن البحث في النصوص أو البحث في صفحات 
الإنترنت بواسطة برمجيات ور كات البحث العالمية الشهيرة» مثل: جو جل (Google)‏ 
وياهو (Yahoo)‏ وبينج (Bing)‏ فعند استخدام محركات البحث يبحث المستخدم عن 
شيء معروف قد تم إعداده مسبقا بواسطة آخرين» كأن يبحث عن عنوان شركة تنتج 
منتجًا بمواصفات معينة» أو يبحث عن أول أمين عام للأمم المتحدة» أو عن الدول التي 
انضمّت إليها حديثا خلال آخر ثلاث سنوات» وهكذا. وبالطبع فإن محركات البحث 
تغني المستخدم عن البحث في مئات بل آلاف الوثائق غير ذات العلاقة. 

لتيب في النصُوص هو مجال متعدد التخصصات» يعتمد على علوم استرجاع 
المعلومات والبيانات» وعلوم التنقيب في البيانات العددية» وعلوم الذكاء الاصطناعي 
والتعلم «JI‏ وعلوم الإحصاء والاحتالات» وعلوم معالجة اللغات الطبيعية 
واللّغويات الحاسوبية» وذلك على النحو الموَضّح بالشكل التالي: 
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الشّكل ٤‏ -7: التخصصات المشاركة في مجال التنقيب في النصوص. 

تطور مفهوم التََقيب في النُضُوص في الآونة الأخيرة ليشمل تطبيقات أخرى غير 
نمطية لا تشملها عر كات البحث» مثل: التصنيف الآلي لآلاف - بل ملايين - الوثائق 
إلى وثائق سياسية» صحية» اجتماعية» رياضية» فنية» وغيرهاء بدون ا حاجة إلى الاستعانة 
بالمختصين؛ ومثل: تجميع النصوص في مجموعات متشابهة)» وتلخيص «IU JI‏ 
والتنقيب في الآراء وتحليل المشاعر» والتصحيح والتصويب NI‏ للإجابات ASUNT‏ 
واستنباط المفاهيم» والتعلم الآلي للأنطولوجيات» وغيرها من التطبيقات المهمّة. 

لقد حظيت تقنيات وتطبيقات تصنيف وتجميع الوثائق المتشابهة بالغالبية العظمى 
من النشر العلمي على مدى الأعوام السابقة. فبالإضافة إلى كونها تطبيقات في حد ذاتها 
مثل تصنيف البريد الإلكتروني وتصنيف oU ME‏ إلا أا أصبحت GSS‏ رئيسيًا في 
كثير من تطبيقات التنقيب في النصوص كما سيتضح. 
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سنتناول في هذا الفصل - بشىء من التفصيل - الموضوعات التالية» والّتى زاد 
الاهتمام بها في الآونة الأخيرة بصورة كبيرة على المستويين - النظري والتطبيقي: 

-١‏ التجميع والتصنيف. 

-Y‏ تلخيص النصوص. 

Y‏ استنباط اتجاهات uel I‏ العام cea‏ في الآراء). 
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المبحث الأول 


التجميع والتصنيف 


د 
T ES d‏ 


١‏ — مقدمة 
Y‏ نماذج من التطبيقات العملية للتجميع والتصنيف للنصوص. 
-Y‏ خوارزمات التجميع والتصنيف. 

-t‏ خوارزمات التجميع والتصنيف واللغة العربية. 
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y CT. 
ةمدقم-١‎ 


او -١‏ التجميع (Clustering)‏ 
يُمثل تجميع البيانات إحدى تقنيات التنقيب في البيانات والنصوص التي تمكن 
من تقسيم مجموعة كبيرة من البيانات أو فئات من الكائنات إلى عدة مجموعات فرعية 
ذات خصائص متشابهة أو مغزى مشترك. فعلى سبيل المثال يمكن للفرد العادي تقسيم 
الجماهير التي تشاهد مباراة لكأس العالم بين GUT‏ والبرازيل إلى ثلاث مجموعات» 
المجموعة الأولى تشجع الفريق GUMI‏ والمجموعة الثانية تشجع الفريق البرازيليء أما 
المجموعة الثالثة فهي من عشاق اللعبة الحلوة ولا تنتمي لآي من الفريقين. وبالمثل أيضا 
يمكن لنا تقسيم رسائل الماجستير التي تمت إجازتها بقسم الحاسب بجامعة القاهرة إلى 
عدة مجموعات تعكس المجالات البحثية لهذا القسم العلمي» مع مراعاة أن هذا التقسيم 

يتم بدون تدخل بشري من المختصين. 








الشّكل ٤‏ -": تقسيم الكائنات إلى مجموعات متشابهة. 


والسؤال المطروح هو: على أي أساس تتم عملية تقسيم البيانات والنصوص إلى 
مجموعات متشابهة؟ وكيف يمكن للآلة القيام ee‏ الأعمال آليا؟ 
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Y , 1‏ التصنيف (Categorization)‏ 
بفرض وجود مجموعة من الفئات أو الأنواع المعروفة مسبقا OB‏ عملية تصنيف بيان 
ما أو كيان ما أو نص ما تتمثل في اختيار الفئة أو النوع الذي ينتمي إليه هذا النص. فمثلا 
يستطيع القارئ تصنيف المقال الذي يطلع عليه إلى واحد أو أكثر من أنواع Nul‏ 

المعروفة: مقالات سياسية» مقالات أدبية» مقالات فنية» وهكذا. 
مثال آخر: يستطيع البنك تصنيف عمليات استخدام كروت SY‏ إلى عمليات 
سليمة وعلميات تمت من خلال النصب والاحتيال. 





الشكل ؛ £7 : تصنيف المقالات الإخبارية طبقا لموضوعاتها 

يلاحظ هنا أن عملية التصنيف تختلف عن عملية التجميع من حيث فرضية وجود 
أنواع معروفة مُسبقاء أما التجميع فلا يفترض ذلك. 

حقيقة الأمر أننا نارس عمليات التجميع والتصنيف في جميع الأوقات في حياتنا 
اليومية» فعندما نستمع إلى صوت خارج من المذياع فإننا نصنفه إلى صوت ترتيل القرآن 
أو صوت تحليل إخباري أو صوت موسيقى مثلا. وعندما تقابل شخصًا لأول مرة فإنك 
e‏ ستقوم بتصنيفه من حيث المستوى الاجتماعي أو المستوى UII‏ أو المستوى الج الي 
أو المستوى العلمى أو إلى غيره من المستويات» دون الشعور أو تعمد ذلك. وبمقابلة 
أعداد كثيرة من الأشخاص قد تتكون لديك الرغبة في تقسيمهم إلى مجموعات تختلف 
عن التصنيف الشائع بين الأفراد. 
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انظر إلى الصورة التالية» والتي مها مجموعة من الأشخاص. كيف يتم تقسيمهم إلى 
E‏ 





نص ما إلى واحدة أو أكثر من الأنواع المعروفة مسبقا؟ وكيف يمكن للآلة القيام eec‏ 
العملية آلا؟ 


وسؤال آخر مطروح هو: ما هي التطبيقات العملية هذه التقنيات؟ 
قبل الإجابة على هذه الأسئلة يجب علينا تمييز أصناف ونوعية البيانات التي تتم 


عليها عمليات التجميع والتصنيف إلى الأنواع التالية (ويطلق عليها اسم الوسائط 
المتعددة (Multimedia‏ : 


e‏ الأفلام المرئية. 
؟ الصور والرسوم المتحركة. 
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9 الكلام المنطوق. 

° الكلام المكتوب (النخصوص المكتوبة). 

ael *‏ البانات والحداول الرقمية. 

ومع الاختلاف الواضح بين هذه البيانات إلا OE‏ التقنيات المستخدمة في تجميع 
وتصنيف هذه النوعيات المختلفة من البيانات تتشابه إلى حد كبير» بل تتطابق في كثير 
من الأحيان؛ إلا أن الاختلاف الجوهري بينها يكون في طبيعة السّمات (Features)‏ 
التي يتم التجميع والتصنيف بناءً عليها. 

سوف deze‏ هذا الفصل بالتجميع والتصنيف للكلام المكتوب (النصوص الكتابية)؛ وهو 
الأساس c IE G E‏ لجميع التطبيقات X‏ عن التنقيب في النصو ص Text Mining)‏ 


Y‏ - نماذج من التطبيقات العملية للتجميع والتصنيف للنصوص 

أصبحت منتجات التنقيب في النصوص متاحة الآن للاستخدامات العملية وليست 
مقصورة على مستوى المراكز البحثية» ولا يكاد يخلو تطبيق الآن من استخدام تقنيات 
التجميع والتصنيف؛ ونذكر منها: 

V, Y‏ - تطبيقات فى die‏ الأمن 

AUI لدرجات السرية للوثائق (سري» سري جداء سري‎ Ji الصف‎ js 
محظورء بدون).‎ 

Y‏ - تطبيقات في مجال الطب الحيويّ 

تستخدم تقنيات التجميع الت ت في بناء آلات البحث الدلالية» مثل: 
(GoPubMed and GoPubmed)‏ والتي تستخدم في البحث عن الجينات وعرض 
النتائج في صورة شجرية. 

Y, Y‏ تطبيقات التنقيب فى الشبكات الاجتماعية 

ويستفاد من هذه التطبيقات في شر كات الدعاية والإعلان الانتقائي» كا تستفيد منها 
المؤسسات الأمنية في تتبع الأشخاص من خلال العلاقات الاجتماعية الخاصة بأقرانهم 


ey 
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على الشبكات الاجتاعية. وتطبيقات التنقيب في الآراء على الشبكات الاجتاعية تعتبر 
من الموضوعات الحديثة الجاذبة لكثير من الباحثين لما لها من تأثير مباشر سواء على 


المستوى التجاري أو التكنولوجي. 


Y‏ و 4- تطبيقات في مجال التسويق التجاري 

تستخدم هذه التطبيقات في تحليل العلاقة بين الشركات والعملاء وبناء أنظمة تنبؤ 
مبنية على ذلك. وهناك آلات بحث دلالية غير التى سبق ذكرهاء مثل آلات: Find)‏ 
(TheBest, Hunch, Pikimal‏ وتستخدم في دعم عملية الاختيار التي يقوم بها 
المستخدم عند قيامه بالشراء من خلال الإنترنت. 


-o , Y‏ تطبيقات في المجال الأكاديمى 

تمثل تقنيات التجميع والتصنيف Gps cs d‏ ا وات النشر الأكاديميةء والتي 
لديا مئات الآلاف أو أكثر من الكتب والمجلات والمنشورات العلمية التي تحتاج إلى 
فهرسة لاسترجاعهاء مع الأخذ في الاعتبار نشأة العلوم والمجالات العلمية الجديدة مما 
يتطلب تحديث الفهارس أولاً بأول. 

لذلك اهتمت بهذا الموضوع مراكز قومية عديدة» مثل المركز القومي للتنقيب في 
النصوص بالمملكة المتحدة (NaCTeM)‏ ومؤسسات نشر عالمية» مثل مؤسسة نشر 
ile‏ «الطبيعة» الشهيرة (Nature Journal)‏ والمعاهد الطبية الوطنية للصحة بالولايات 
Sol‏ ,كر من الاعات الى قامت obl‏ عدة مادرات Rega‏ غال ترصف 
الوثائق وني مجال بناء واجهات الاستخدام والبحث» مثل مبادرة بناء واجهات مفتوحة 
المصدر مبنية على التنقيب في النصو ص «(OTMI - Open Text Mining Interface)‏ 
ومبادرة تعريف نوع المستند (DTD - Document Type Definition)‏ والتي من 
شأنها توفير إشارات دلالية للآلة في الإجابة على أسئلة iaae‏ وردت في نص الوثيقة. 


Y‏ ,*— تطبيقات التصنيف الآلي للبريد الإلكتروني 

وتفيد هذه التطبيقات في التعرف وحجب مئات الرسائل الإلكترونية التي تصلنا 
يوميا من مصادر مجهولة أو تحتوي على موضوعات غير مرغوبة فيها. وعموما فإن هذه 
التطبيقات تستخدم في تصنيف الرسائل الإلكترونية إلى بريد مهم جداء وبريد مهم» 
وبريد عادي» وبريد غير مرغوب فيه» وبريد دعائي» إلخ. 


» dcs 
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-V,Y‏ تطبيقات 2 تجميع نتائج | لبحث في الإنترنت وتصنيفها 

على سبيل المثال» عندما نبحث عن كلمة «خلية (cell‏ تقوم آلات البحث» مثل آلة 
الببحث (Vivisimo)‏ وآلة البحث «Northern Light)‏ بتجميع الآلاف من نتائج 
البحث وتقسيمها آليا إلى بجموعات متشامة في المجال مثل: الخلايا البيولوجية» والخلايا 
الشمسية» والخلايا الإرهابية؛ Ut‏ يساعد الباحث في الوصول إلى ما يريده من معلومات. 


توجد خوارزمات عديدة لعمليات التجميع 
والتصنيف وتختلف من حيث نظرية عملها ودقة 
النتائج التي تصل إليها. منها ما يحتاج إلى تدريب 
هذه الخوارزمات وأكثرها انتشارًا. يمكن وصف 
خصائص مختلفة من خوارزمات المجموعات على 

(Clustering) خوارزمات التجميع‎ - ١“ 

° التجميع الهرمى (Hierarchical Clustering)‏ 
توصف كل مجموعة بأكبر مسافة مسموح بها بين كل عنصر وآخر من عناصرها. يتم 
حساب المجموعات بأحد أسلويين: 

الأسلوب الأول هو الأسلوب التجميعي حيث يتم اعتبار كل عنصر مجموعة 
قائمة بذاتها ثم يتم دمج هذه المجموعات الصغيرة إلى مجموعات أكبر. وتتوق عملية 
الدمج إذا تم الإخلال بشرط أكبر مسافة مسموح بها. والأسلوب الآخَر هو الأسلوب 
التقسيمي حيث يتم وضع جميع العناصر في مجموعة واحدة ثم يتم تقسيم هذه المجموعة 
إلى بجموعات فرعية في حالة الإخلال بشرط أكبر مسافة مسموح بها. 
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* التجميع من خلال حساب مراكز الثقل 
(Clustering means-K) clustering based-Centroid)‏ 
تعتمد هذه الطريقة على تحديد عدد المجموعات مسبقا بواسطة المستخدم» bÉ‏ لكل 
مجموعة مركز ثقل» ويتم توزيع العناصر على كل مجموعة طبقًا لبعد العنصر عن مركز 
الثقل» ثم يعاد حساب مراكز الثقل مرة ثانية» ويعاد توزيع العناصر مرة ثانية وثالثة وهكذا 
طالما هناك تغيير في مراكز الثقل. وتنتهي عملية التجميع مع ثبوت مراكز الثقل الجديدة. 
° التجميع من خلال حساب الكثافة (Density-based clustering (DBSCAN)‏ 
ويتم فيه النظر إلى المجموعة على أنها المساحة ذات الكثافة العالية من العناصرء أما 
العناصر المبعثرة فيتم اعتبارها فواصل أو عبارة عن شوشرة وضوضاء. 
Y‏ , 7- خوارزمات التصنيف (Classifications)‏ (من خلال التعلم) 
تقوم هذه الخوارزمات ببناء ناذج التصنيف من خلال دراسة مجموعة من الأمثلة 
لعدة فتات معروفة مسبقا. وبواسطة هذه الناذج يتم تصنيف العناصر الجديدة التي لم 
تسبق رؤيتها. وأشهر هذه الخوارزمات: 
* آلة الدعم الموجهة (Support Vector Machine)‏ 
° الشبكات العصبية (Neural Networks)‏ . 
úb .‏ لأقر ب (Nearest Neighbors-k) òl yt‏ 
* طريقة بايز .(Naive Bayes) kl‏ 
° شجرة القرار .(Decision Tree)‏ 
° شبكات (Bayesian Networks) pL‏ 


5 - خوارزمات التجميع والتصنيف واللغة العربية 

تعتمد جودة التجميع والتصنيف على اختيار واستخلاص ملامح/ سات العناصر 
التي تتم تغذيتها للخوارزمات المذكورة سابقا. 

يوجد اتجاهان لأخذ خصائص اللغة العربية في الاعتبار عند بناء التطبيقات الخاصة 
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الاتجاه الأول هو استغلال الخوارزمات التي تم تطويرها للعمل في بيئة اللغة 
الإنجليزية بدون تغيير» ويتم التركيز على اختيار السّمات التي تأخذ في الاعتبار 
خصائص الصرف والنحو العربي. 

والاتجاه الآخر (وهو التوجه ا حاليّ)؛ يتمثل في الخوارزمات التي تم تطويرها للعمل 
في بيئة اللغة الإنجليزية من خلال تعديل المعادلات المستخدمة داخل هذه الخوارزمات 
أثناء حساب المسافات بين العناصر لتأخذ في الاعتبار خصائص اللغة العربية. المثال 
التالي يوضح أوجه الاختلاف في التعامل بين النص الإنجليزي والنص العربي عند 
تطبيق خوارزمات التصنيف؛ والمطلوب بناء برنامج قادر على: تحديد إلى أي المدارس 
الشعرية تنتمى قصيدة شعرية معينة» علا بأنه لدينا أمثلة عديدة من القصائد التى تنتمى 
نكل diat dass‏ 0 
مدرسة البعث والإحياء الكلاسيكية 
مثال ١‏ 











Y Ji 


Y Jt‏ إلى أي نوع من المدراس الشعرية العربية في 
مثال £ العصر الحديث تنتمى هذه القصيدة الشعرية 














مثال ... 








مدررسة البحك واللاحياد الكللاسيكية gl‏ بليت pros‏ ما سلطوا 








إلا لطول Bd‏ وعنائي 

مثال ”١‏ إبليس والدنيا ونفسي وال حوى 
مثال YY‏ كيف احلاص agis s‏ أعدائي؟! 
مثال YY‏ 


Y: مثال‎ 











مثال ... 














الشّكل ٠-٤‏ : مثال يوضح أهمية أخذ خصائص اللغة العربية في الإعتبارعند بناء 
تطبيقات التنقيب في النصوص العربية 

فق نحالة القضيدة Ha all‏ 

أحد السّمات التي يتم تغذية خوارزم التصنيف بها يتمثّل في الأوزان التي جاءت 
عليها الأفعال داخل القصيدة» وهو ملمح يختص باللغة العربية فقط. 

في حالة القصيدة الإنجليزية» يمكن الأخذ في الاعتبار ملامح أخرى تختص باللغة 
الإنجليزية» مثل مدى استخدام الصيغ المختصرة (Yr instead of Your)‏ ىا هو 
مستخدم في قصائد JP‏ الأسود (Black Mountain‏ . 


aiie 
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الملبحث الثاني 


تلخيص النصوص 


el gl -١‏ التلخيص الآلي. 

VI قياس جودة التلخيص‎ -Y 
dI أساليب التلخيضن‎ -v 

5 - نماذج من أنظمة التلخيص الآلي. 
-o‏ الخلاصة. 


ey ye 
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مع تزايد إنتاج الوثائق الإلكترونية بصورة تصاعدية وإتاحتها على شبكة الإنترنت 
كل ce‏ كان من الضروري العمل على إيجاد أنظمة 
تساعد في تلخيص واستخلاص محتوى هذه الوثائق 
والاستفادة من المعلومات الموجودة مها. ومن شأن 
هذه الأنظمة توليد ملخص لستند أو مجموعة من 
المستندات» أو تلخيص ila‏ طويلة» مع حذف 
المعلومات الزائدة والمكررة والحدٌ من التفاصيل. 
عندما نبحث عن معلومة أو بيان على الإنترنت باستخدام محركات البحث» ففي معظم 
الأحوال يقوم محرك البحث بالإفادة بأن هناك مئات الآلاف من الوثائق التي تحتوي على 
الكلمات الحاكمة التي تعبر عن المعلومات المطلوبة» ويقوم باختيار وإظهار عدد قليل 
منهاء في حدود العشرات» حيث يتم اختيارها وترتيبها بناء على خصائص لا ترتبط 
بالمعنى أو المحتوى النصي للوثيقة. وبالطبع لا يستطيع القارئ الاطلاع على كل أو حتى 
جزء صغير منها. تساعد أنظمة تلخيص النصوص في تلخيص هذه الوثائق وعرض هذه 
الللخصات حيث يستطيع القارئ أن يحدد الوثيقة أو الوثائق التي يتفحصها تفصيليا. 
كذلك يمكننا أن نتعرف على ملخص الموضوعات التي تداولناها مع أحد الأشخاص 
أو إحدى الجهات من خلال البريد الإلكتروني خلال العام الماضي مثلا. 

مثال آخر يتمثل في عرض ملخصات الأخبار على أجهزة التليفونات المحمولة حيث 
شاشتها الصغيرة تجعل من غير الملائم عرض الخبر بالكامل. 

ويعرف ملخص النص بأنه الموجز الذي يتم إنتاجه من واحد أو أكثر من النتصوص» 
ويحتوي على نسبة كبيرة من المعلومات الموجودة في النص الأصلي ولا يتعدى حجمه 
نصف النص الأصل. 
كيف تتم عملية تلخيص النصوص؟ 

قبل الدخول في شرح تقنيات التلخيص الآلي 
للنصوص.. هناك بعض الأسئلة التي تطرح نفسها مثل: 

-١‏ أي الأنواع من التلخيص يحتاجها المستخدم. 

YI كيف نقيس جودة التلخيص‎ -Y 
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-١‏ أنواع التلخيص الآلي 

يمكن النظر إلى توغية التلخيص من عدة زوايا ختلفة, فمن حيث GA JE‏ منه: 
هناك تلخيص معبر عن النصء وهناك تلخيص كمؤشر عن نوعية النص. النوع الأول 
هو الأكثر دقة» أما النوع الآخر فيستخدم للتصنيف الآلي للنص. 

ومن حيث طبيعة الملخص الناتج؛ هل هو أجزاء مستقطعة من النص الأصلي أم هو 
إعادة صياغة للنص الأصلي محتفظا بمعناه ولكن في سطور أقل بنسبة IA‏ مثلا. 

ومن حيث رغبة المتلقي» هل الملخص يعكس رؤية النص الأصلي el‏ يعكس ما 
مهتم به القارئ» كا تعتمد طبيعة التلخيص الآلي على الشخص المتلقي للمعلومة» فمثلا 

ومن حيث مصدر النصوص المطلوب تلخيصها ومن حيث اللغة المكتوبة بها» de‏ 
المصدر وثيقة واحدة أم عدة وثائق» وهل المصادر مكتوبة جميعا بنفس اللغة (العربية 
مثلا) el‏ بعدة لغات ختلفة. 


طبقا لنوع التلخيصء هناك أسلُوبان رئيسيان للتلخيص الآلي: أسلُوب استخلاص 
عدد محدود من الجمل من النص أو النصوص التي يتم اختيارها طبقا لمعايير معينة» 
وأسلوب إعادة صياغة النص بجمل في الغالب تكون جديدة ومختصرة يتم الوصول 
إليها من خلال تفهم النص أو النصوص الأصلية. ونظرا لصعوبة عمليات فهم 
النصوص ونجاحها في coUe‏ تخصصية محدودة» فإن أسلوب استخلاص عدد محدود 
من الجمل من النص هو الشائع حاليا في مجال تلخيص النصوص. 


Y‏ - قياس جودة التلخيص الآلى 
تقاس جودة التلخيص من خلال عنصريين أساسيين: 
۲ - نسبة ضغط النص: ويعبر عنها بطول الملخص مقارنة بالنص الأصليء 
ويقصد بالطول هنا عدد كلمات أو عدد الجمل أو عدد الفقرات الموجودة 
بالمللخصء. وهذه النسبة يسهل حسابها من خلال معادلات بسيطة. ونسبة 
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ضغط النص عادة يتم تحديدها أو اختيارها مسبقا بواسطة المستخدم قبل 
تنفيذ عمليات التلخيص. 


Y‏ 7- نسبة الاحتفاظ بالمعلومة. 

ولكن: 

كيف نحدد ما إذا كان الملخص قد احتفظ بكامل المعلومة الأساسية الموجودة في 
النص الأصلي أم لا؟ وما هي نسبة الاحتفاظ؟ 

توجد عدة طرق للتعامل مع هذه المعضلة الكبيرة: 


الطريقة الأولى: تعتمد على فحص ناتج التلخيص والحكم على جودته بواسطة 

المختصين» وبالطبع نتيجة الحكم تختلف من شخص إلى آخر. 

الطريقة الثانية: تعتمد على حساب عدد مقاطع الكلمات المشتركة بطول معين 

Us j‏ للتحو العَدَدِيّ (N-gram)‏ بين ناتج التلخيص JYI‏ وبين الملخصات التي 

تم إعدادها مسبقا بواسطة مجموعة من الأشخاص» وبدون الأخذ في الاعتبار 

موقعها داخل النص. كلما زاد عدد التقاطعات المشتركة كلا اعت ذلك sa‏ 

Meum 

الطريقة الثالثة: Jam‏ على نظرية «كلود شانون» المعروفة باسم «نظرية 

المعلومات»؛ وتستخدم في ضغط البيانات عند نقلها على شبكات الاتصال من 

مكان إلى آخر بغرض سرعة نقلهاء ولكن مع القدرة على استرجاع البيانات 

الأصلية الكاملة من البيانات المضغوطة بعد استقباها. 

الطريقة الرابعة: تعتمد على الاستعلام» وتعمل كالآتي: 

يقوم مجموعة من الأشخاص بقراءة النص الأصلي للوثيقة المراد تلخيصها ثم 

يقومون بوضع مجموعة من الأسئلة تعكس أهم عناصر النص الأصلي. 

- إجابة الأسئلة بدون الاطلاع على أي شيء ( لا الوثيقة الأصلية ولا الملخص 
الآلي) ويطلق على هذه الإجابة مصطلح «خط الأساس». 
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- إجابة الأسئلة بعد الاطلاع على الملخص الآلي. 
- إجابة الأسئلة بعد الاطلاع على الوثيقة الأصلية. 
وتحتسب جودة التلخيص الآلي (نسبة الاحتفاظ بالمعلومة) بنسبة الإجابات 
الصحيحة التي أجابها المجموعة الثانية من الأشخاص بعد الاطلاع على الملخص QVI‏ 
مقارنة بالإجابات قبل وبعد الاطلاع على النص الأصلي للوثيقة. 
* الطريقة الخامسة se YU‏ على تصنيف نتائج الملخص الآلي» وتعمل كالتالي: 
- يتم تجميع ٥٠٠٠‏ مقالة إخبارية من خمسة مجالات مختلفة (صحة» سياسة» 
...) بواقع ٠٠٠١‏ مقالة لكل جال. 
يقوم الملخص JYI‏ بتلخيص هذه المقالات الإخبارية. 
- يقوم مجموعة من الأشخاص (بدون الاطلاع على المقالات الأصلية) 
بتصنيف الملخصات إلى المجالات المختلفة. 


- يتم حساب نسبة أعداد الملخصات التي تم تصنيفها بصورة صحيحة 
متوافقة مع تصنيف أصل المقالة. 
- يتم حساب نسبة أعداد الملخصات التي تم تصنيفها بصورة خاطئة مقارنة 
مع تصنيف أصل المقالة. 
= يتم cL‏ جودة التلخيص (نسبة الاحتفاظ بالمعلومة) بدلالة النسب 
المحسوبة أعلاه. 
في أغلب الطرق السابقة يستخدم مقياس (ROUGE)‏ ومقياس (measure-F)‏ 
للتعبير عن جودة التلخيص. 
وبالطبع فإن التحدي الرئيسي لعمليات التلخيص هي الوصول إلى نسبة عالية من 
الاحتفاظ بالمعلومة» وفي نفس الوقت استخدام نسبة ضغط كبيرة. 
GU;‏ الآن إلي توضيح كيفيّة إنجاز عمليات التلخيص الآلي. 


-Y£Y- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


-v‏ أساليب التلخيص الآلي 
يمكن تقسيم أساليب التلخيص MI‏ إلى المجموعات التالية: 
-١‏ أساليب إحصائية ( أساليب تعلم الآلة). 
؟- أساليب معالجة اللغة الطبيعية (على المستوى الصرفي والنحوي). 
-Y‏ أساليب المعالحة الدلالية وأساليب شبكات الكلات. 
٤‏ - أساليب الحسابات المرنة» مثل: الشبكات العصبية» الخوارزمات الجينية» المنطق 
الفازي» وذكاء الأسراب. 


#ولات ibam I co LAE‏ ل افلخ 

يتصف الأسلُوبٍ الإحصائي بأنه عند اختيار ال مَل التي 55S‏ ملخص النص لا 
يتم النظر إلى أي تحليلات لغوية» مثل التحليل الصرفي أو النحوي أو الدلالي لمحتويات 
الوثيقة» ولكن يؤخذ في الاعتبار بعض أو كل العناصر التالية: 

pH .‏ التي تحتوي على كلمات ذات معدل تكراري die‏ في النص. 

» العبارات المميزة. 

٠‏ الجمَل التي تقع في عناوين الوثائق. 

t‏ الجمل التي تقع على رأس الفقرات والأجزاء داخل النص. 

* موقع الجملة داخل النص. 

* طول الجملة (عدد كلماتها). 

وعادة تُعطى الأولوية للجُمَل التي تقع في عناوين الوثائق وللجُمل التي تحتوي على 
كلمات ذات معدل تكراري die‏ في النص. 

v‏ 7- الأسلُوب اللغوي لعملية التلخيص 

هنا يتم الأخذ في الاعتبار الخصائص اللغوية للنص المراد تلخيصه. ويتكون من 

. (Topic Identification) | التعر ف على موضوع النص‎ e 


iy 


هذه الطبعة إهداء من SA‏ 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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° التفسير (Interpretation)‏ 
* توليد الملخص (Generation)‏ 


ونستعرض فيا يلي كل مرحلة من هذه المراحل: 


مرحلة التعرف على موضوع النص 

ويتم التعرف على موضوع النص بمجموعة من الطرق. منها: طريقة بنية الخطاب 
«(Discourse Structure)‏ وطريقة التسلسل المعجمي «(Lexical Chains)‏ وهي 
ss VI‏ شيوعا الآن: 


يقة بنية الخطاب: ويقصد بها اكتشاف مجموعة الجمل التي تغطي سياق النص؛ 
ولتوضيح ذلك نفترض Xo UT‏ تلخيص النص التالي: 


- توفير أجهزة رئيسية وأجهزة شخصية مع ملحقاتها (طابعات) وفقا للتقنيات الحديثة ومتطلبات العمل. 

-تم استلام برامج النظم المالية بعد تطويرها ومراجعة تطببقاتها SU‏ من مطابقتها لاحتياجات القطاع 

المالي من إجراءات وقواعد وتم التطبيق والاستخنام الفعلي لتك النظم بجميع تطبيقاتها اعتبارا من 

.19/5/2004 

- توفير خدمة الانترنت للموظفين ja)‏ العمل على توفير خدمة E1‏ لتشغيل خدمة الانترنت من 

المتزل). 

- قامت إدارة الشئون الإدارية بتزويد إدارة نظم المعلومات ببياناتها وذلك لوضعها على صفحة 

الانترنت. ميكنة انظمة وبرامح الهيئة الإدارية والمالية. 

- تم تركيب أجهزة اتصال وحماية (داخلية وخارجية) بالإضاقة إلى الحماية من الفيروسات. ولم يتم 
تلام دليل )242 


- تم البدء في إدخال بياتات الموظفين من واقع ملفاتهم وبلغت نسبة النجاح (9665). خدمة الانترنت: 
كما تم عمل البنية التحتية لشبكة الحاسب الآلي وتوفير خدمة الاتصال بالاتترنت. 





ويتم استخلاص الجمل التي تغطي سياق النص» وهي الجمل التي تجيب عن الأسئلة 
من نوعية: Bb‏ حدث» لماذا حدث» كيف حدث» متى حدث» من فعل» وهكذا. 
فكلمات مثل: توفير» تزويد» إدخال» تشغيل» وفقاء اعتبارا من.. تساعد في تحديد الجمل 
التي تغطي سياق النص. 

ويلعب التعرف على الكائنات الاسميّة» مثل أسماء الأشخاص وأسماء الجهات» 
دورًا كبير في إنجاح هذا الأسلُوب من التلخيص. 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


يقة التسلسل المعجمى: يقصد بها استخلاص سلاسل الكلمات ذات الصلة في 

sad‏ وتياك :هذه الطريقة cà i]‏ عل à ull cole a M‏ دعل اء ت 
تطوير هذه الطريقة في أوائل التسعينيّات بواسطة موريس وهاريس بناء على أبحاث 
ماف ق مف ال ات تحول uds‏ الت لكوي المعروف ماک asado‏ 

وتعتمد هذه الطريقة على مفهوم التماسك النصي الذي يربط الجمل بعضها ببعض 
من خلال أدوات لغوية مثل حروف اللإشارة» الضمائر» الاستبدال» الحذفء الاقتران 
وغيرها. 

بصورة «s ol‏ فإن السلاسل المعجمية تمثل التتبع لكائن اسميٌّ محدد داخل النص» 
هذا الكائن الاسمي ب MS‏ عه نراق وصور هاس علو لم غير 
يعود عليه . ولا يشترط ذلك أن يكون في نفس الجملة ولا حتى ذه نفس المقطع من النص. 

وهنا تبدو مشكلة الالتباس؛ فتحديد GAI‏ يعود على مَن» ليس بالمسألة السهلة 
بالنسبة للحاسب حيث يتطلب فك الالتباس اللجوء إلى قواعد اللغة وإلى المعرفة العامة 
والتخصصية. وكذلك مشكلة الالتباس التي تنشأ نتيجة المعاني المتعددة للكلمة وكيفية 
اتاو المع المحم لكلا وغ ذلك من الفحديات à ge, AIT‏ 

es‏ فإن مرحلة التعرف على موضوعات النص تنتهي مع الوصول إلى مجموعة 
السلاسل اللغوية التي تم تحديدها في النص» ونأتي بعد ذلك إلى مرحلة التفسير. 

مرحلة التفسير 

يُقصّد بالتفسير في هذا السياق تخصيص سالسلة واحدة ذ فقط وبالضبط لكل تواجد 
لكايّن اسمي في النص. هله العم طرق وفنا 32D Sue‏ عله AU‏ الاش 
لعدد الأساء الموجودة بالنص) إذا أخذنا في الاعتبار es‏ الاحتمالات المائل للتفسير 
والوصول إلى التفسير الصحيح» أو على الأقل التفسير الأفضل. ويقصد بالأفضل هنا 
التفسير الذي يغطي أطول السلاسل المعجمية المستخرجة. 

وللتغلب على مشكلة التعامل مع جميع الاحتالات الممكنة فقد اقترحت رجينا 
بارزيلاء ومايكل الحداد وسيلبر ومككوي ربط السلسلة المعجمية بمفهوم معين وربط 
هذا المفهوم بمعنى مأخوذ من نظام ووردنت (WordNet)‏ وهي قاعدة بيانات معجمية 
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للغة الإنجليزية حيث يتم تجميع الكلمات الإنجليزية في مجموعات من المترادفات تدعى 
c(synsets)‏ وتوفر تعريفات قصيرة dole‏ وتسجل العلاقات الدلالية المختلفة بين 
مجموعات المترادفات المختلفة. كذلك تعتمد طرق «رجينا بارزيلا» و «مايكل الحداد» 
و«سيلبر) و «مككوي) على استخدام معربات سطحيّة بسيطة وأدوات لتعيين أقسام 
o‏ نونات) للكلمات للتعرف على الأساء. وتأخذ طريقة «سيلبر» و «مككوي» 
a fs‏ ف a‏ سه لأسا cac‏ للوضيرل إل 

ode‏ الماكتم ا 

تنتهي Med‏ التفسير بتحديد آهم (أفضل» أقوى) السلاسل المعجمية في النص 
بناء على coul‏ تقييم يأخذ في الاعتبار عدد المرّات التي 35 فيها الكائن الاسميّ 
وعلاقاته السابقة مع باقي كلمات السلسلة. ومن الجدير بالذكر أن هناك أساليب كثيرة 
لتقييم السلاسل المعجمية المستخرجة من النص. فعلى سبيل المثال» يمكن الأخذ في 
الاعتبار عناصر غير لغوية» مثل حجم ولون وموقع كتابة الجمل داخل النص كدلالة 
لأعمية السلسلة. بعد ذلك تأتي مرحلة توليد الملخص. 

مرحلة توليد الملخص (Generation)‏ 

بعد تحديد eal‏ (أفضل» أقوى) السلاسل المعجمية في النص يتم اختيار جملة واحدة 
من كل منها؛ ولكن أي جملة يتم اختيارها؟ 

إحدى البدائل لكل سلسلة قوية أن يتم اختيار أول جملة تشير إليها وتضمينها 
(بالترتيب) في الملخص. بديل آخر لكل سلسلة قوية Ob‏ يتم اختيار أول ila‏ تشمل 
الممثل الاسمي الذي يعبر وترتبط به السلسلة وتضمينها (بالترتيب) في الملخص» مع 
ملاحظة أن الممثل الاسمي هو المعنى المناظر المأخوذ من شبكة الكلمات (WordNet)‏ 
والذي يعبر وترتبط به السلسلة. 

للشرح التفصيلي لاستخدام السلاسل المعجمية في التلخيص يُقَضَّل الرجوع إلى 
المقالات المرجعية التالية: 


1. “Lexical cohesion computed by thesaural relations as an indicator 
of the structure of text" by Morris, J. & G. Hirst, 1991. 


2. "Using Lexical Chains for Text Summarization", by Regina Barzi- 
lay & Michael ElHadad, 1997. 


EA 
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3. “Efficiently Computed Lexical Chains as an Intermediate Rep- 
resentation for Automatic Text Summarization”, by Silber, G. & K. 


McCoy, 2002. 

Y‏ "- أسلُوب الجمع بين تعلم الآلة والمعالجة اللغوية 
في هذا الأسلوب تتم عملية التلخيص في ثلاث مراحل: 
* قراءة الوثائق. 
فهم الوثائق من خلال بناء التمثيل الدلالي لمحتويات الوثيقة. 

* توليد الملخص من هذا التمثيل. 

ونظرًا OM‏ عملية فهم وتوليد التمثيل الدلالي الغني للنص معقدة للغاية وليست 
مكنة حتى COMI‏ فإن معظم نظم التلخيص تكون من نوع استخلاص عدد محدود من 
الجمل من النص الأصلي مع إعادة صياغة هذه الجمل لحذف الحواشي منها. ولكن 
يعيب هذه الطريقة أن الملخصات المستخرجة من النص تكون غير متماسكة في العادة» 
ولكن يميزها أنها غير مكلفة الحل ولا تتطلّب أنطولوجيات معاونة. 

يعمل أسلوب الاستخلاص كما هو موضح بالشكل التالي: 


الوثائق الأصلية ‏ , ب "e‏ 


لح )| سار 


2 مجموعة 2 


. ر“‎ Y 


P Y. 
LÀ 


جملة مخدارة من المجموعة 


مجموعة ن 


لنم 


الشّكل ٤‏ -5: كيفية عمل الملخص الآلى للنصوص باسلوب الاستخلاص. 


-\ éV- 





هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
$5 ييا 


. بعد قراءة الوثائق G‏ الأصلية» يتم تة تقسيم الجمل الموجودة إلى مجموعات من الجمل 
المتشامة» ويطلق على هذه الخطوة «عملية التجميع» (Clustering)‏ . 

* يتم ترتيب المجموعات الناتجة وهي في العادة كبيرة العدد» حيث يعكس 
الترتيب أهمية المجموعة. 

96 يتم اختيار جملة واحدة من المجموعات الأولى حسب ترتيب المجموعات. 

٠‏ في العادة تحتوي الحمل المختارة على حواش وتكرارات يمكن الاستغناء عنهاء 
لذا يتم إعادة صياغة الجمل من خلال حذف هذه الحواشي» وهنا يأتي دور اللغة 
في إعادة صياغة الجملة. 


٤۳‏ - اسلوب شبكات الكلمات 

يُستخدم هذا الأسلُوبء المقترح بواسطة «كاتجا فيلبوفا» - من جوجل - في دمج 
a‏ لحمل لحو لوصوم إلى Sets‏ . ويعتمد على بناء شبكة بين كلمات 
مجموعة من الجمل المراد اختصارها حيث مئل كل كلمة بعقدة داخل الشبكةء والخطوط 
التي تصل الكلمات تمثل تتابع الكلمات داخل كل جملة» مع ملاحظة أن الكلمات المكررة 
Edo d to fall ze‏ جد كلل شر Bardo‏ 

يبدأ بناء الشبكة للجملة الأولى في صورة سلسلة من العقد بواقع عقدة لكل كلمة 
ل N LI‏ مم ills De‏ يعم aiio dde ol‏ لكلو 9 iS edt‏ 
مع كلمات الجمل السابقة إذا لم يكن هناك التباسٌ في المعنى. ويتم بناء عقد مروف الجر 
eh‏ اف ی ا ی 

مثال لشبكة كلمات تناظر أربع جمل ختلفة عن نة نفس الموضوع: 

° أراد محمد عمرو زيارة سوريا الشهر الماضي لكنه أجل خططه حتى يوم الاثنين 

الماضي. 

* قام محمد عمرو بزيارة دولة سوريا الشقيقة يوم الاثنين. 

° زار محمد عمرو نائبا عن الرئيس محمد مرسي سوريا يوم الاثنين الماضي. 

* الأسبوع الماضي زار وزير الخارجية السيد عمرو المسؤولين السوريين. 


-Y£A- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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الشّكل ٤‏ -۷: يوضح أسلويًا لشبكات الكلمات 


وهذا الأسلُوب في الدمج يعتمد بصورة كبيرة على المعالجة اللغوية والتعرف على 
مواطن الالتباس في الجملة والتعرف على حروف الربط والإشارة وربطها بمدلوها. 


-e, Y‏ أساليب الحسابات المرنة لتلخيص النصوص 

يندرج تحت هذه الفئة عدد من التقنيات التي تحاول أن تحاكي الكائنات الحية في 
التفكير أو في التطور أو تسم بِالعْمُوض في التعبير. 

فمن التقنيات التى تحاكى الكائنات الحية في التفكير نجد شجرة القرارات والشبكات 
ال ركا oll a y ecol MI‏ الى عا الات إطرد فى ded lal‏ 
ciel cola‏ ومح coll‏ التي تسم a SU‏ جد النطق الفازي. 


وتعتمد معظم هذه الأساليب على إيجاد مجموعة من الخصائص لكل جملة ثم 
استخدامها كبارومترات يتم تحديد مدى أهمية الجملة للاحتفاظ بها في ناتج التلخيص. 


والخصائص التالية تعد الأكثر انتشارا من حيث الاستخدام في هذه الأساليب: 


* موقع الجملة في النص. 


0 





هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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* مدى تشابه الجملة مع عنوان النص. 
* مدى محورية الجملة (ويمكن قياسها بمدى احتوائها للكلمات الأكثر تكرارا في 
النص أو بطرق أخرى). 


* مدى احتواء الجملة على كلمات سلبية مثل فقير» مرهق. 

* مدى احتواء الجملة على كيانات اسمية» مثل رئيس الدولة. 

* مدى احتواء الحملة على بيانات عددية. 

* طول الجملة مقارنة بباقي الجمل في النص. 

ففي حالة الشبكات العصبية» على سبيل المثال» يتم بناء الشبكة من ثلاث طبقات. 
الطبقة الأولى تتكون من مجموعة عقد تحمل قيم الخصائص المختارة للجملة Yee)‏ 
...خ۷ ...). الطبقة الثانية تتكون من مجموعة من العقد ويطلق عليها الطبقة المخفية» 


وعدد العقد بها أقل من عدد عقد الطبقة الأولى ويتم التوصل إليها بالتجربة والخطأ. 
الطبقة الثالثة والأخيرة مكونة من عقدة واحدة وهى التى تحدد مدى اختيار الجملة 


ضمن النص المراد تلخيصه. 





الشّكل ؛ -۸: شبكة عصبية لها V‏ مدخلات تحدد خصائص الجملة وها خرج واحد يحدد مدى أهمية الجملة 
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والعلاقات والدالات الحسابية التي تربط قيم العقد في الطبقات المختلفة يتم تعلمها 
من خلال المئات بل الآلاف من أمثلة التلخيص اليدوي. 

وكا 555 آنا ol‏ هذه coluit‏ والأسالبب gapi adi A‏ التصوض 
تستخدم أيضا في باقي جالات الثتقيب في اللصوص؛ ومجاللاات «s pl‏ ل التب 
في البيانات ومجالات التعرف على الصور والتعرف على الكلام والتعرف على ALII‏ 


؛ - نماذج من أنظمة التلخيص الآلي 

يوجد OYI‏ العديد من أنظمة التلخيص على المستوى التجاري» ولكن معظمها يخدم 
اللغة الإنجليزية وقليل منها يخدم اللغة العربية. وجدير بالذكر أنه لا يزال هناك الكثير 
من البحث والجهد المطلوبين لرفع جودة هذه الأنظمة» وبالأخص بالنسبة لتلخيص 
النصوص العربية. 


-١ 5‏ نمافج من أنظمة التلخيص للنصوص الأجنبية 

(SweSum) ° 

هو أول نظام لتلخيص al‏ للغة السويدية. وهو يلخص نصوص الأنباء السويدية 
المكتوبة بتنسيق (HTML)‏ على شبكات الإنترنت. ناتج التلخيص عبارة عن 
عددمن -٠١‏ *0 من الكلمات الحاكمة. وتتراوح دقة التلخيص للنصوص الصحفية 
من /5٠‏ إلى AE‏ وذلك للنص الأصلى الذي يصل طوله في المتوسط إلى ۱۸١‏ كلمة. 
ونظام (SweSum)‏ متاح أيضا itii‏ الدنمركية والفارسية والنرويجية والإنجليزية 
والإسبانية والفرنسية والإيطالية واليونانية والألمانية. 

ويستند (SweSum).‏ على الأساليب الإحصائية واللغوية وأساليب الذكاء 
الاصطناعي. وتتمٌّ عملية التلخيص واختيار الكلمات الرئيسية من خلال قيام النظام 
بحساب تكرار الكلمات الرئيسية في النص الصحفي وموقع هذه الجمل في النص. ويأخذ 
في الاعتبار حجم حروف الكتابة هذه الكلمات» وهل هي موجودة بالفقرات الأولى في 
النص أم لاء وما إذا كانت القيم الموسومة C3‏ عددية أم لا. 


—\0\-— 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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(SUMMARIST) ٠ 


هو حاولة لتطوير تكنولوجيا قوية للتلخيص بِأسنُوب الاستخراج للإفادة في 
عالات البحث العلمي» ومن ثم مواصلة البحث وتطوير تقنيات الوصول للنظرة 
التجريدية للنص. هذا العمل يوائم بين عمق التلخيص مقابل متانة التلخيص (ويقصد 
با متانة القدرة على التعامل مع النصوص التي تشتمل على أخطاء لغوية). فيكون التركيز 
على استخدام أنظمة تحليل وتفسير المدخلات بصورة عميقة lo‏ يكفي لإنتاج ملخصات 
جيدة» أو على النصوص المقيدة بصورة أو بأخرى ولكن لا يمكن تحليلها بطريقة عميقة 
با يكفي لصهر المدخلات بصورة صحيحة. وبالتالي تؤدي فقط إلى استخراج موضوع 
النص. 

حتى الآن» ينتج نظام (SUMMARIST)‏ ملخصات الاستخراج في حمس لغات 
(حيث تم ربطه بمحركات الترجمة هذه اللغات في نظام MuST‏ للترجمة الآلية). العمل 
المهمّة في النص أو لبناء مجموعة كبيرة من قواعد المعرفة المطلوبة لعمليات التلخيص 
القائمة على الاستدلال والتجريد للنص الأصلي. 

(LexRank Summarizer) * 

LexRank‏ هو نظام لتلخيص النصوص الإنجليزية تم تطويره في جامعة ميتشجان 
الأمريكية» وهو متاح للعمل على شبكة الإنترنت عبر الموقع: 
http: / /clair.si.umich.edu /clair /lexrank‏ 

يمكن للمستخدم كتابة النص المراد تلخيصه أو تحميل النص من ملف سبق إعداده. 
ويعتمد النظام على الأساليب الإحصائية والرسوم الشبكية. يقوم النظام بتحويل الجمل 
النصية إلى متجهات عددية ثم يحسب قيمة الزاوية بينها Gimilarity Cosine)‏ (وهي 
إحدى طرق حساب التشابهات بين جمل النص) ثم يقوم بعد ذلك بحساب مصفوفة 
الجوار ee‏ الجمل الموجودة بالنص. gus‏ ناتج التلخيص من خلال الاحتفاظ 
بالجمل ذات أعلى قيم بداخل هذه المصفوفة. الشكل التالي يعبر عن علاقة الجوار 
والتشابه في نص مكون من إحدى عشرة جملة يرمز ها داخل الرسم بالرموز SNO,‏ 
.SNI, SN3, ..., SN10‏ 


—YoY- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقياً أو تداولها تجارياً 
س 





الشّكل ٤‏ -4: مصفوفة جوار JA‏ عنها برسم شبكي 

(Intellexer Summarizer) * 

وهو نظام للتلخيص الآلي» يستخدم أساليب معالجة اللغات الطبيعية بكثافة» فيقوم 
بالتحليل الصرني والنحوي والدلالي للنص كجزء متكامل. وهو متاح للاستخدام من 
خلال الموقع التالي على شبكة الإنترنت: 

http: / /www.fileguru.com /Intellexer-Summarizer- SDK /info 
بعض الأنظمة التي تعمل من خلال شبكة الإنترنت:‎ ° 
٠ Automatic Text Summarizer 


http / /:www.makeuseof.com /dir /automatic-text- 
summarizer-text-summarization-tool / 


٠ The Open Text Summarizer 


http: / /libots.sourceforge.net / 


٠ Kify Online Text Summarizer 


http: / /text.kify.com / 


°  [ntellexer Summarizer 3.1 
http: / /summarizer.intellexer.com / 


٠ PERTINENCE SUMMARIZER 
http://www.pertinence.net/ps/summarizer url.jsp?ui.lang-en 


—*,3oY- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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e  QuickJist summarizer 1.2 
http://www.filecluster.com/Internet/Browser-Tools/Download- 
QuickJist-summarizer.html 


° Sinope Summarizer 


http://www.sinope.info/en/Download 


٠ Copernic Summarizer 


http://www.copernic.com/en/products/summarizer/ 


٤‏ و Y‏ نماذج من أنظمة التلخيص للنصوص العربية 


° نظام (Lakhas) a%‏ 
(Lakhas)‏ هو نظام للتلخيص JY‏ تم تطويره بجامعة مونتريال الكندية. يستخدم 
النظام الأسنُوبٍ الإحصائي في عمليات التلخيص التي تتم على المراحل التالية: تجزئة 
النص إلى مجموعة من الجمل» تجزئة الجمل إلى eS‏ وضع حروف eSI‏ في صور 
موحدة (مثل هه ة ومثل (d‏ إزالة كلمات الوقف (stop words)‏ (مثل: الذي» التي) 
جذور الكلهات) ثم حساب المعدل التكراري للكلمات المستخلصة» ثم حساب الوزن 
النسبي لكل جملة معتمدا على معدل تكرار كلماتها وعلى موقع الجملة في النص» وأخيرا 

يتم استخلاص الحمل ذات الوزن النسبي العالي لتكوين الملخص المطلوب. 


. نظام (ACBTSS)‏ 
Arabic Concept-Based Text Summarization System)‏ ( 
يعتمد هذا النظام (من جامعة إسكس Essex‏ البريطانية) على تقنية بايز الإحصائية 
وتقنية البرمجة الجينية حيث تُستّخدمان في أنظمة تصنيف النصوص. يحتاج هذا النظام 
إلى XS‏ لغويّة مُرَمّرة ومُرّوّدة بالحواشي» تستخدم في تدريب النظام على استخراج 
خصائص الجمل التي يتم الاحتفاظ بها في ناتج التلخيص. وهذه الخصائص يتم تحديدها 
من خلال المعالجة AUI‏ للنص (تحليل صرفي» ترميز أجزاء الكلام) ومن خلال موقع 
الجمل داخل النص بالإضافة إلى المعدل التكراري لكلمات كل ila‏ داخل النص. 


—Yof£- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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9 نظام (The Summarizer of AramediA)‏ 
يتميز هذا النظام (من شركة صخر) بوجود وظيفة تصحيح الأخطاء اللغوية الشائعة 
ثم يتم التلخيص من خلال استخدام أساليب إحصائية وتحريرية ولغوية للتعرف على أشباه 
الجمل الحاكمة في النص (الكلمات المفتاحية). ويستخدم النظام في تلخيص النصوص 

الإنجليزية والعربية. 


http: / /aramedia.com /summarization.htm 


ه- الخلاصة 

يعتمد بناء أنظمة تلخيص عالي الجودة على أساليب معالجة اللغات الطبيعية مع 
التقنيات الحديثة في محال تعلم الآلة والذكاء الاصطناعى» ولازال هناك تحديات بحثية 
وتطبيقية كثيرة في هذا المجال. 

أهم هذه التحديات الآتي: 

-١‏ ما هي الميزات المهمّة لنظم تلخيص النص والتي تعتمد على استخراج الأفكار 

الرئيسية من النص الأصل TEE‏ 

-Y‏ كيف يمكن التعامل مع الجمل الغامضة في النص الأصلي للوثائق» إن وجدت؟ 

-Y‏ كيف نستطيع أن نقيّم نظم تلخيص النص؟ 

ومن سمات الاتجاهات الحديثة في هذا المجال تحول الاهتمام من تلخيص النصوص 
العلمية والإخبارية إلى مراجعة واستعراض المنتجات المتاحة عبر الإنترنت» مثل 
المقالات الطبية الحيوية» وتتبع موضوعات التعليم» وتتبع رسائل البريد الإلكتروني» 

ومن أهم الاتجاهات البحثية الدمج بين أكثر من أسلوب تقني مع الاهتمام 
با لخصائص الدلالية لكلمات الجمل ومكوناتها. 


—\00— 


هذه الطبعة إهداء من SAM‏ 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 





—\01- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقياً أو تداولها تجارياً 
OO‏ 


المبحث الثالث 


استنباط اتجاهات el TE‏ العام 


١‏ - أهمية تنقيب الآراء. 

-Y‏ مهام وأساليب التنقيب عن الآراء. 

۳- التنقيب في الآراء واللغة العربية. 

5- الموارد اللغوية اللازمة المتاحة والمطلوبة. 

-٥‏ التوجهات المستقبلية والتحديات الي تواجه تنقيب الآراء. 


—YoNvV- 


هذه الطبعة إهداء من SAM‏ 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 





-١6/- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


استنباط اتجاهات الرأي العام 
(متابعة تطور الآراء على الشبكات الاجتماعية) 

يُعتبرٌ فهم اللغات الطبيعية واحدًا من أكبر تحديات الذكاء الاصطناعيّ أو هو المشكلة 
الكاملة في الذكاء الاصطناعيّ؛ Jen‏ استخلاص الرأي من بين النصوص والتعرف 
على أجزاء النص التي توئ عل آراء fist‏ صل بمعالجة اللغات الطبيعية. 

à V‏ الآراء (Opinion Mining)‏ أو استخلاص الآراء أو وجهات النظر 
(sentiment extraction /Opinion)‏ أو تحليل وجهات النظر Sentiment)‏ 
(Analysis‏ هي مرادفات تتصل بنفس المعنى. 

تنقيب الآراء هو مجال البحوث التي تسعى إلى تمكين النظم الآلية من تحديد الآراء 
البشرية من النصوص المكتوبة (أو المنطوقة مع التطور) بلغة بشرية طبيعية» وهو يتعقب 
ويبحث في تحديد وجهات النظر التي تقع ضمن النص. 

تنقيب الآراء هو: استخراج الآراء الواردة في النصوصء أو هو علم يقوم بدراسة 
استخراج الآراء باستخدام تقنيات استرجاع المعلومات IR‏ والذكاء الاصطناعيٌ «Al‏ 
ومعالحة اللغة الطبيعية NLP‏ 

يتعلق المجال أيضا ويرتبط ارتباطا وثيقا بتلخيص الآراء من المحتوى المقدم من 
المستخدمين أو إعلام ما ينتجه المستخدمون على الإنترنت» أو ما بعرض في المنتديات 
ومجموعات النقاش والمدونات والشبكات الاجتاعية» وتصنيف تلك الآراء 
(Sentiment classification)‏ واستعراضها وتحليلها وكشفها. 

ينسحب تنقيب الآراء على حوسبة ax‏ واسترجاع المعلومات IR‏ وتنقيب 
النصوصء ومعالجة اللغات الطبيعية» وتعلم YI‏ والإحصاءء والتحليل التنبؤي؛ 
وهناك العديد من التقنيات التي يمكنها إنجاز هذه المهام. 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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Y‏ - أهمية تنقيب الآراء 

في دراسة مسحية حديثة عن تطبيقات تقنيات التنقيب في النصوص تم الإشارة إلى 
أن ما يقرب من ٠١‏ بالمئة من المعلومات المتاحة على الإنترنت X E‏ في شكل نصوص 

ولا كانت الغالبية العظمى من المخزون الطبيعيٰ مسجلا في كلمات ونصوص. فإن 
هناك نوعين أساسيّين من المعلومات E‏ هما: الحقائق» والآراء. وتعمل معظم 
تقنيات معالجحة المعلومات الحالية (مثل آلات البحث) على الحقائق (بافتراض صحتها)» 
ويمكن التعبير عن الحقائق بكلمات أساسية (كلمات حاكمة) تعبر عن الموضوع. من 
أمثلة الحقائق: بيانات تأسيس حزب» بيانات عن التوزيع السكاني لدولة ماء ما آخر 
مقالة للكاتب نجيب محفوظ؟ ما أعلى قمة جبل في SII‏ وأين تقع؟. ما هي الدول 
الأعضاء في منظمة «يونسكو»؟ ومن هو مديرها الحالي؟» وهكذا. 

الحقائق ذات أهمية كبيرة في الحياة الواقعية الحقيقية إلا أن الآراء أيضا تلعب دورا 
حيويا وأساسيا لمعرفة ما يجرى وردود الأفعال. 

تم إنتاج طائفة واسعة من التطبيقات التي تتيح تنقيب وجهات النظر (شكل 
»23١- 4‏ وقامت بالتركيز على قدر كبير من البحوث في السنوات الأخيرة» وقد تم 
التوصل إلى دقة عالية في التصنيف باستخدام مجموعة متنوعة من التقنيات» يعتمد 
معظمها اعتمادا كبيرا على علوم الإحصاء والذكاء الاصطناعي وتعلم الآلة وعلوم 
معالحة اللغات الطبيعية. 


ages 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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الشّكل £ :٠١-‏ طائفة واسعة من التطبيقات التي تتيح تنقيب وجهات النظر. 
أصبحت أتمتة استخراج الآراء من النص Ye‏ يحظى pleal‏ متزايد» ونظرا للكمية 
المتزايدة من المحتوى المقدم من المستخدمين والمتاحة على الشبكة فقد ازدادت أهمية 
قدرة دقة قياس الآراء بتطبيقات عملية أكثر من أي وقت مضى. 
والإحصائية التالية ها دلالة عن أهمية هذا العلم الحديث» فوفقا لاثنتين من 
الدراسات الاستبيانية لأكثر من ٠٠٠١‏ من الأمريكيين البالغين لكل منهما: 
البحث على الإنترنت با لا يقل عن مرة واحدة على منتج ما (منتجات مثل: 
أدوات التجميل» أجهزة المحمول. ... ). 

-١‏ تبين أنه من ۷۳/ إلى LAY‏ من بين الذين يقرؤون التقارير والمقالات ووجهات 
النظر المنشورة على الإنترنت عن المنتجات والمطاعم والفنادق والخدمات 
المختلفة (مثل وكالات السفر أو الأطباء) قد أفادوا أن هذه التقارير لعبت دورا 
كبيرا على قرارهم في شرائهم هذه المنتجات أو ذهابهم إلى هذه الأماكن. 

۳- تبين أن Y Y‏ من الذين شاركوا في الاستبيان قد قاموا بالتعبير عن elo‏ في 
تصنيف جودة منتج أو خدمة أو شخصء وذلك باستخدام نظم التقييم الآنية 


eyes 





هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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المتاحة على الإنترنت» وأن * Y‏ (من بينهم LA‏ من كبار السن) قد نشروا 
تعليقا على الإنترنت أو قاموا بمراجعة بشأن منتج أو خدمة من الخدمات التي 
cip‏ لها على الإنترنت. 

يفيد تنقيب الآراء في العديد من التطبيقات» مثل: 

-١‏ المؤسسات والمنظمات من أجل تقييم المتتجات والخدمات. 

. (Market intelligence) استخبارات السوق‎ -Y 

۳- توفير JUI‏ والجهد» ومعرفة آراء ووجهات نظر المستهلكين. 

-٤‏ يساعد في معرفة الأفراد للمنتجات التي تلقى lal‏ من الآخرين ووجهات 
نظرهم بشأنها. 

-o‏ توفر نظم تنقيب النصوص للمؤسسات والشركات معلومات تنافسية من 
خلال معالجة كمية كبيرة من النصوص والحصول على الفوائد منها. 


1— تحليل ملفات العملاء تحليل اتجاهات» ترشيح وتوجيه المعلومات» تتبع 
الأحداث» تصنيف الموضوعات الإخبارية» بحث ويب.... إلخ. 

۷- يقوم تحليل ملفات العملاء بالتنقيب في البريد وشكاوى العملاء والتغذية 
المرتدة منهم» كا يمكن تحليل ملفات المرضى للحصول على اتجاهات مرضية 
وشکاوی وجودة الخدمات» وتحليل بث المعلومات وتنظيم وتلخيص 


اتجاهات الأخبار والتقارير» وتنقيب مستندات تخطيط موارد المؤسسة. 


-A‏ التطبيقات كمكونات تكنولوجية فرعية: نظم التوصيات» التلخيص» إجابة 


4- تطبيقات في الأعمال: استخبارات السوقء تحسين المنتج والخدمات. 

- فهم رأي المستهلك الذي يعبر عن صوته في الاتصالات اليومية. 

-١‏ تطبيقات سياسية: ى| هو معروف» يلعب الرأي دورا كبيرا في السياسة» وتركز 
يعن je coll‏ فهر ما كر AUSSI d esa ate D gel leo‏ 
أو تشريع القوانين. 


-\ Te 
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5- تحليل المدونات: إنجاز تصنيف الاستقطاب والتصنيف الموضوعيٌ على 
محتويات المدونات والمراسلات التي تتم فيها. 

ce JE) الحالة المزاجية على مدار الوقت‎ Pol اكتشاف الاختلافات فى‎ -١ 
واسع.‎ GU Je sels الإثارة» الحزن» العا الان إل ) اللاي‎ 

١4‏ - استخدام ربط المعلومات الزمنية لنمذجة الثقة والتأثير في GL as‏ المدونات. 

6- تحليل وجهات النظر في المدونات عن أعمال فنية وإبداعية وأفلام ومبيعات. 

7- تفاعل الحاسب والإنسان» وتفاعل الإنسان مع الروبوت. 

۷- التعليم والامتحانات. 


-Y‏ مهام وأساليب التنقيب عن الآراء 
m‏ عن الآراء داخل النصوص بإحدى وسيلتين. الوسيلة الأولى: وهي التعبير عن 
الرأي المباشر» مثل « تصميم هذه السيارة رائع»» والوسيلة الأخرى: من خلال التعبير 
المقارن» مثل «تصميم هذه السيارة أفضل من تصميم السيارة الأخرى». وواجب 
تقنيات التنقيب التعامل مع الآراء بأنواعها المختلفة. 
وإذا كانت محركات البحث في صفحات الإنترنت تلبى بصورة أو أخرى حاجات 
المستخدم في البحث عن الحقائق من خلال استخدام الكلمات الحاكمة للتعبير عن 
متطلباته» فإن على cols e‏ التنقيب في الرأي أن تلبي حاجات المستخدم في معالجة 
وإجابة أنواع الأسئلة التالية الخاصة بالرأي: 
إحدى خصائصه. مثل: 
ما رأي عباس العقاد في الكاتبة مىّ زيادة؟ 
معين أو في إحدى خصائصه. مثل: 
ما هي الدول الأعضاء ني مجلس الأمن التي تتعاطف مع القضية الفلسطينية؟ 
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ما هو الرأي الإيجابيّ (أو الرأي السلبي) في منتج أو كائن معين. مثل: 

مقارنة بين الرأي في أشخاص أو جهات أو كائنات اسميّة معينة أو في منتجات 
ماذا يميز التلفاز من ps‏ «إل سي دي» عن التلفاز العاديّ؟ 

ما هو الرأي في منتج أو كائن معين؟ هنا لا يكتفي محرك التنقيب برآي شخص 
واحد أو جهة واحدة» DE‏ يجب أن يأخذ في الاعتبار الآراء المختلفة ومن المفيد 
أن تكون الإجابة طبقا لآراء الأغلبية مع التنويه عن النسبة. مثل: 


ما ري الجمهور في أداء الفريق القومي أمس؟ 


لكي تكون محركات التنقيب قادرة على التعامل مع الأنواع المختلفة من الأسئلة 
السابقة» ينبغي أن تتعامل مع المحتويات المختلفة لمكونات النص على النحو التالي: 


التعامل على مستوى عبارة داخل الجملة للتعرف على الكائن (شخص» جهة» 
التعامل على مستوى عبارة داخل الجملة للتعرف على خاصية من خصائص 
الكائن واستخلاصها (درجة حرارة الغرفة» سعة ذاكرة الحاسب» تصميم 
السيارة» إلخ). 
التعامل على مستوى الجملة للوصول للرأي. 
التعامل على مستوى الوثيقة للوصول إلى تصنيفات الرأي المستخلصة من الجمل. 
أحيانا تحتوي الجملة الواحدة على أكثر من رأي أو مقارنة بين رأي وآخر مثل: 
محمد يحب كرة القدم» ولكن عادل لايكترث). 

بالنظر إلى ما سبق يمكن أن نخلص إلى أن مفهوم الرأي يحتوى على ثلاث 
مكونات رئيسة» هي: 


صاحب الرأي أو حائز الرأي. 
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لكي تستطيع محركات التنقيب عن الآراء الوصول إلى هذه المكونات الثلاثة من 
الجملة أو الوثيقة فإنها تقوم بمجموعة من المهام والوظائف المتعددة» مثل التعرف علي 
الكلمات والجمل اللغوية داخل المقال» التعامل مع المترادفات والمتضادّات» التعامل 
مع التطابق والجناس والتعامل مع الكلمات التي تحمل معنى الرأي والتعرف على 
الدلالات التعبيرية هذه الكلمات والجملء ثم تحديد وتصنيف رأي المقال. وعموما OB‏ 
قائمة المهام التالية تمثل حجر الزاوية في نظم التنقيب عن الآراء» والتي تأخذ معالجة 
وخصائص اللغات الطبيعية في الاعتبار: 


التحليل الصرفي والإعرابي للنص. 

بناء واستخدام قاعدة بيانات الدلالة المعجمية المعنية بالمشاعر Sentiment)‏ 
(Lexical Semantics Database‏ . 

Opinion) el JI على‎ ŠÍ oine IL مُعَنونة‎ ÉZ بناء واستخدام مُدَوّنة‎ 
. CAnnotated Corpora 

التعرف على القائم بإبداء الرأي (ويطلق عليه اسم حائز الرأي) والتعرف على 
التعرف على طبيعة الكلمات (كلات موضوعية مقارَنة بالكلمات التقديرية). 
تحليل المعنى التقديري للكلمة .(Subjectivity Analysis)‏ 

استخراج الرأي وتصنيف النص طبقا لذلك. 

تلخيص وجهات النظر المختلفة (Views summarization)‏ (وتلعب دورًا 
كبيرًا في حالة تعدد الوثائق عن نفس الموضوع» سواء أكانت مكتوبة بلغة واحدة 
el‏ بلغات متعددة). 
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وفيما يلي سنلقي الضوء على أساليب تنفيذ بعض هذه المهام. 
۲ -التعرف على أسماء الكائنات (Recognition Entities Named)‏ 


توجد تقنيات متعددة للتعرف على الكائنات الاسمية داخل النص. وتنقسم هذه 
التقنيات إلى الأنواع التالية: 


تقنيات مبنية على القواعد النّحويّة. وهى isle‏ عبارة عن قواعد مصاغة يدويًاء 
à; AUI i abl ase VE dc‏ الغالية. هذه coii‏ معط idle d ge‏ 
التعرف على الكائنات الاسميّ ولكنها في الغالب لا تغطي معظم الحالات» 
بالإضافة إلى إنها عالية التكلفة في الإعداد وتحتاج إلى أشهر من العمل من قبل 
اللغويين ذوي الخيرة الحسابية. 

تقنيات مبنية على cte)‏ الإحصائية للغة. وتتطلب عادة إعداد كمية كبيرة 
من النصوص التي يتم إضافة الحواشي إليها وتميبز الكائنات الاسميّة بينها 
يدويًا. ويبقى دور برمجيات تعلم الآلة لاستخلاص وصياغة نماذج التعرف على 
الكائنات الاسميّة. وهي أيضا مكلفة الإعداد ولكن لا تحتاج خبرة اللغويين 
بمثل احتياج التقنيات السابقة. 

تقنيات مبنية على قوائم بالأسماء السابق إعدادها يدويا (أو قواعد بيانات 
متخصصة للكائنات الاسمية (Gazetteers‏ وتعمل بنجاح في المجاللات ذات 
EUNT CN‏ 


Y‏ ؟- التعرف على القائم بإبداء الرأي (ويطلق عليه اسم «حائز الرأي») 

جذبت مهمة التعرف على «حائز الرأي» عددًا كبيرًا من الباحثين. وقد استعيرت 
تقنيات كثيرة من مجالات متعددة» مثل التعرف على الأصوات والتنقيب في البيانات 
العددية لتخدم هذه المهمة. وبدون الدخول في التفاصيل الفنية» نميز من بين التقنيات 
الكثيرة المستخدمة في التعرف على حائز الرأي التقنيات التالية: 


تقنيات ناذج مار كوف المخفيّة (HMM- Models Markov Hidden)‏ 


تقنيات الحقول الشرطية العشوائية (Fields Random Conditional)‏ 


ie 
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* المنهج القائم على ael‏ المعرفة. 
* تقنيات التجميع والتصنيف (مثلا باستخدام حالة الفوضى القصوى). 
منهج يعتمد على وجود معجم. 
* تقنيات تعتمد على وجود معلم» مثل: 
- تقنيات تعلم الآلة» مثل آلة العم الموّجّهة (SVM)‏ 
* تقنيات لا تعتمد على وجود معلم» مثل: 
- استنباط المعجم. 


- تقنيات التعلم الذاتي باستخدام التمهيد (Bootstrapping)‏ . 


- منهج التعلم المختلط (وجود وعدم وجود معلم). 
* تقنيات دلالية» وهي تقنيات تعتمد على تمييز الكلمات وحساب الارتباط 
الدلالي بينها با أساليب مختلفة مثل: 
- فهرسة الدلالات الكامنة .(Indexing Semantic Latent)‏ 
- أساليب المعاملات الأرجح. 
- أساليبالمعلومات المتبادلة نقطة بنقطة .(Information Mutual wise Point)‏ 
* تقنيات مهجنة تجمع بين نوعين أو أكثر من التقنيات السابقة. 
Y‏ ۴- التعرف على طبيعة الكلمات والعبارات اللغوية (كلمات موضوعية بالمقارنة 
إلى الكلمات التقديرية) 
من وجهة نظر التنقيب في الآراء يتم تقسيم نوعية الكلمة إلى نوعين رئيسين: 
e‏ الكلمات الموضوعية (words Objective)‏ 
٠‏ الكلمات التقديرية (words Subjective)‏ التى تعبر عن الخصائص؛ وتحديد 
قيمتها في الغالب تقديري. l‏ 
قوي - الأفضل 
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أفقى - سائل 
أصفر - أبيض - أسود 

تركز البحوث ال حالية على التعامل مع الكلمات والعبارات التي يطلق عليها كلمات 
المحتوى مثل: (الأسماء» الأفعال» الصفات» الحال) وتعتمد هذه الأبحاث على استخدام 
بر يات تمييز أجزاء الكلام Tagging (POS) Speech-of-Part‏ « ويقصد مها تحديد 
وتصنيف نوع الكلمة: فعل» فاعل» اسم مفرد» اسم جمع» صفة» حال» أداة تعريف» 
وهكذا. بالنسبة لبعض أنظمة الحاسب مثل فإنها تعرف مابين ٠١‏ إلى ١6١‏ علامة تمييز 
x slo M au‏ وكذتك اال ARR ads‏ العريية: 

کا تست تستخدم أساليب لغوية أخري مثل | ستخراج الجذر وتحديد الجذع للكلمة ومثل 
حذف الكلمات الوظيفية وغيرها من الكلمات التي تعرف باسم (Stop words)‏ (مثل 
کلم o‏ 

(Analysis Subjectivity) تحليل المعنى التقديري للكلمة‎ -5 , Y 

يختص تحليل المعنى التقديري للكلمة بتحديد إلى أي الفئات تنتمى قطبية الكلمات: 
هل هي إيجابية أم سلبية أم حيادية 

olds‏ إيجابية» مثل: ممتاز - رائع - جيد - بمهارة - متقن 

US‏ سلبية» مثل: سيء - حزن - مع الأسف - يتأ 

cols‏ حيادية» مثل: جدا - كثيرا - قليل - طويل 

وقد يبدو للوهلة الأولى أن هذه مهمة سهلة» بالفعل هذا سهل بالنسبة للشخص 
الذي يتحدث ويتقن اللغة ويمتلك المعرفة البديبية (Commonsense Knowledge)‏ 
ولكن بالسبة للحاسب Mg VIE‏ يمخشل LZ‏ كببسرًا له نرا لتعده ظراهر 
اللبس في اللغة ونظرا لعدم إمكانية تغذيته بجميع المعارف البديبية وصعوبة تمييز المعاني 
الضمنية وقراءة ما بين السطور. فعلى سبيل المثال.. عندما gi‏ في النص عبارة «طيب 
القلب» هل هي عبارة إيجابية el‏ عبارة سلبية! (بالطبع تخضع لسياق الجملة). 

وكا في تقنيات المهام السابقة مثل تقنيات التعرف على الكائنات الاسميّة وتقنيات 
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التعرف على القائم بإبداء الرأي فإن تقنيات مهمة تحليل المعنى التقديري للكلمة تنقسم 
إلى قسمين رئيسيين وهما: 

١‏ تقنيات & على ce)‏ الإحصائية للغة. وتتطلب عادة إعداد كمية كبيرة 
من النصوص التي يتم إضافة الحواشي ها وتمبيز المعنى التقديري للكلمة بينها 
بطريقة يدوية. ويبقى دور برمجيات تعلم الآلة لاستخلاص وصياغة ناذج 
التعرف على المعنى التقديري للكلمة. وهي أيضا مكلفة الإعداد ولكن لا تحتاج 
خبرة اللغويين بمثل احتياج التقنيات اللغوية. 

* تقنيات مبنية على Ael‏ بيانات معجمية. وهى عادة عبارة عن قواعد بيانات 
لكلمات اللغة مزودة ببرمجيات تحليل صرفية للتعامل مع الاشتقاقات الصرفية 
المختلفة للكلمة الواحدة. وهذه التقنيات تعطي جودة عالية في التعرف على 
المعنى التقديري للكلمة» ولكنها عالية التكلفة في الإعداد وتحتاج إلى أشهر من 
العمل من قبل اللغويين ذوي الخبرة الحسابية. 

وتتراوح دقة التقنيات ا حالية في تحديد المعنى التقديري للكلمة نسبة تتراوح بين VA‏ 

- ۸۷ مما يدل على الحاجة إلى جهو دات بحثية مستمرة للوصول إلى دقة أعلى تتناسب 
واحتياجات التطبيقات العملية. 


۲ , 5 - استخراج الرأي وتصنيف النص 

معظم تقنيات استخراج الرأي المتاحة حاليا تأخذ في الاعتبار مهام التعرف على 
طبيعة الكلمات وتحديد المعنى التقديري لها ولكن توجد اتجاهات بحثية أخرى تصل إلى 
تحديد الرأي بدون المرور بعملية تحديد طبيعة الكلمات ومعناها التقديري. 

على سبيل المثال» توجد أنظمة لتحليل اتجاهات مقالات الرأي عن الأفلام السينائية 
Pang et al. (2002)‏ باستخدام التقنيات الإحصائية وتقنيات تعلم الآلة المختلفة مثل 
تقنيات «(Bayesian Naïve) ib LA pL‏ وتقنيات آلات العم الموجَهة Support)‏ 
«(vector machines‏ وتقنيات الفوضى القصوى .(Maximum Entropy)‏ 

وتعتمد هذه التقنيات على استخراج مجموعة من الخصائص من المقالات ودراسة 
مئات» بل آلاف من المقالات التى 25 C9‏ طبيعة الرأي ضما ومحاولة التعرف على العلاقة 


ES 
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بين طبيعة وقيم الخصائص المختلفة التي تم تحديدها (أو يتم أيضا استنتاجها بواسطة 
البرمجيات). ويتم تطبيق هذه العلاقات على المقالات الجديدة لتحديد طبيعتها 
واستخلاص الرأي منها. 
ce‏ من خصائص المقالات المستخدمة في )2002( :Pang et al.‏ 

* قوائم الكلمات في النص وأماكن تواجدها في النص. 

٠‏ علامات تمييز أقسام الكلام. 

e‏ أعداد تواتر ثنائيات الكلات بالنص. 

* قوائم الصفات الموجودة بالنص. 

٠‏ أعلى 7777 كلمة أحادية من حيث تكرار تواجدها بالنص. 

وقد بلغت دقة حساب رأي المقالات نسبة بين ۷۸,۷ و JAY LA‏ 

في حالة التقنيات التي تعمل بالاعتماد على طبيعة الكللات وقيمها التقديرية كا 
في شغل (2004) Hu and Liu‏ يتم تحديد رأي الجملة وذلك بحساب نسبة مجموع 
الكلمات الإيجابية بقيمها التقديرية مقارنة بمجموع الكلمات السلبية بقيمها التقديرية 
(وذلك لكل كلمات الرأي الموجودة بالجملة)» وقد بلغت دقة حساب رأي الجملة نسبة 
AI‏ 


-Y'‏ التنقيب فى الآراء واللغة العربية 

(استخراج الآراء من المعلومات العربية وشرح السببية في Jie‏ الأخبار) 

ملحوظة: هذا الجزء من الفصل ا حالي مأخوذ من أعمال قمنا بها بمركز التنقيب في 
البيانات بجامعة القاهرة. 

ما هي المسألة: بناء نظام تميكن يستقبل النصوص الإخبارية ويقوم باستخراج الآراء 
بشأن كيان معين 4 o3‏ المستخدم. 


Wee 
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تقدم مؤسسيه بطلب إشهاره قانونياء عقد حزب «مصر الأم» مؤتمره الصحاني 
الأول في القاهرة» لكن الرفض الجماهيري حال من دون إكمال المؤتمر» (o;‏ لهذا الأمر ما 
يبرره» فقد جاءت أفكار وبرنامج الحزب غريبة على المتلقي المصري» وجاءت دعاوى 
العودة إلى القومية المصرية القديمة» واعتبار المصريين غير عرب» وأن اللغة التى تتحدث 
بها مصر هي لغة مصرية وليست عربية كا زعم محسن لطفي السيد وكيل الحزب. 
والمطلوب الإجابة على سؤال مثل: 
(MI‏ ويستنتج ذلك من تواجد كلمات تحمل مفهوم السلبية في معناها مثل «الرفض 
الجماهيري» وأن يتعرف على سبب هذا الرأي السلبى. والسبب في حالتنا هذه هو: 
«فقد جاءت أفكار وبرنامج الحزب غريبة على المتلقى المصري» وجاءت دعاوى 
العودة إلى القومية المصرية القديمة» واعتبار المصريين غير عرب» وأن اللغة التى تتحدث 
بها مصر هى لغة مصرية وليست عربية). 
يبين الشكل UII‏ (الشكل )١١-5‏ هيكل نظام استخراج الآراء من المعلومات 
العربية وشرح السببية له. 





الرآي وسيب الرأي pL‏ 
المستخرج 


2 


C ha 





وحدة تعدين الأفكار 


وحدة التعرف على المكونات الاسميّة العربية 


قاعدة بيانات الدلالات المعحمية & 
FTN at Vu, $21‏ العربية 


الشكل 1١-4‏ : هيكل نظام استخراج الآراء من المعلومات العربية وشرح السببية لها 


-1۷1- 





هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
mn————— — 13] 1.‏ 


وفيها يلي شرح مبسط لكل وحدة من مكونات نظام استخراج الآراء من المعلومات 
العربية وشرح السببية له. 
Y, Y‏ - وحدة التعرف على الكائنات الاسميّة العربية 
دور هذه الوحدة هو التعرف في نصوص الأخبار على مختلف فئات الكائنات 
الاسميّة العربيّة (شخص أو منظمة» والموقع والتاريخ والوقت» وأنواع الوظائف» 
والسيارات والأجهزة وال هواتف النقالة» والعملة). 
* هذه الخطوة مهمة جداء لأن هذه الكائنات الاسميّة SE‏ غالبا أصحاب الرأي 
الأكثر شيوعا أو كائنات تتصل بها الآراء والأخبار. 
5 وعلاوة على ذلك» فإن هذه الكائنات في حد ذاتها هى عبارات موضوعية وليست 
عبارات دلالية تفيد الرأي وبالتالي وفي وقت لاحق فإن نظام التنقيب والبحث 
عن الرأي يمكن تجاهل هذه الكائنات من حيث سلبية أو إيجابية المعنى. 
ee Si;‏ الشكل التالي (الشكل )٠١-٤‏ كيف تعمل هذه الوحدة: 


متن الأخبار ملحق به 
علامات تمييز الأسماء 





الشّكل ٤‏ -؟١:‏ وحدة التعرف على الكائنات الاسميّة العربية 
تستخدم هذه الوحدة مصنف من نوع «الحقول الشرطية عشوائية» Conditional‏ 
classifiers (CRF) Fields Random‏ الذي سبق الإشارة إليه وذلك للتعرف على 
الكائنات الاسميّة المختلفة. 


يعمل هذا المصنف iub‏ يعرف باسم (Bootstrapping)‏ وهو al‏ للتعلم 
الذاتي من خلال تزويد المصنف بقائمة أولية من أنماط المسميات المختلفة» مثل: اط 


-YVY- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


الأشخاص أو المنظمات» والمواقع والتواريخ » وأنواع الوظائف» والسيارات والأجهزة 
وال هواتف النقالة» والعملات النقدية وغيرها. وعلى المصنف زيادة هذه الأناط كلما 
تعرض إلى نصوص إخبارية جديدة. eod zs‏ الشكل التالي (الشكل OTE‏ سلوب 
عمل المصنف من نوع «الحقول الشرطية عشوائية»: 





متن النصوص العربية | 


الأناط الأولية 


الشكل 1-4 : مصنف من نوع «الحقول الشرطية عشوائية». 
وجدير بالذكر أن هناك مشروعات وأبحاث كثيرة في مجال التعرف على الكائنات 
الاسميّة من النصوصء وقد المت هذه الأبحاث نحو الدمج بين العلوم الإحصائية 
وعلوم تعلم الآلة وعلوم اللغويات حتى يمكن أن نصل إلى جودة عالية في التعرف على 
الكائنات الاسميّة. وتمثل عملية التعرف الآلي على الكائنات الاسميّة تحديًا كبير نظرا 
لديناميكية الأسماء وظهور مسميات جديدة ونظرا لقضايا اللبس الناتج من تعدد المعنى 
المحمول على الكلمات. 
Y‏ 7- وحدة التنقيب عن الرأى 
* تشتمل هذه الوحدة ieu je‏ بيانات معجمية دلالية لجميع كلمات اللغة 
العربية حيث توصف كل كلمة بموضوعيتها أو تقديراتها» بمعنى آخر هل هي 
كلمة موضوعية تقبل الصواب والخطأ مثل كلمة «اليوم» في جملة «اليوم عطلة 


1V - 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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رسمية») el‏ هي كلمة ذات طبيعة تقديرية» مثل كلمة «رائع» في جملة «الطقس 
اليوم رائع». ومع كل كلمة ذات طبيعة تقديرية توضح قاعدة البيانات المعجمية 
الدلالية قطبية الكلمة؛ هل تدل على شيء إيجابي أم تدل على شيء سلبي؟. 
ومن البديبيّ أن توجد كلمات تعبر عن السلبية والإيجابية» وذلك طبقا لسياق 
الاستخدام. فكلمة (صامت» قد تعني عدم المشاركة والسلبية في الرأي أو قد 
تحمل المعنى الويجابي وتعني القدرة على تحمل الموقف (مثال: ظل الشعب صامتا 
رغم تزوير الانتخابات» ظل الرجل صامتا رغم شدة المرض). 
وتوجد جهود كثيفة من فرق أبحاث الشركات العربية العاملة في المجال في بناء 
قواعد بيانات معجمية دلالية للغة العربية على نمط قواعد البيانات المعجمية الدلالية 
للغات الإنجليزية (SentiWordNet)‏ حيث تعبر عن قطبية الكلمة (المعنى الشعوري 
أو العاطفي أو الرأي) بموقعها داخل المثلث كا في الشكل (O E= E)‏ 


إيجابية تقديرية 
كلمة "محتر 'a‏ 
0 
موضوعيه 


الشّكل ؛ -£ Y‏ : قطبية الكلمة 
* تقوم الوحدة بتحديد نوعية الكلمة (موضوعية el‏ تقديرية) وفي حالة التقديرية 
تقوم الوحدة بتصنيف الكلمة طبقا لقطبيتها. 


* استخراج التعبير الرأي من النص وتحديد صاحبه وموضوعه. 


-5/اا- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ال-١ OOO‏ 


أمثلة من قاعدة بيانات معجمية دلالية: 


معان موضوعية معاني إيجابية معان سلبية 
* الرجل wm e. EE‏ 
* الصوت ° الشجاعة ٠‏ ردئ 

e‏ الآلة © العطاء » ف 




















ويوضح الشكل التالي (الشكل E‏ 07( كيفية ترميز كل حقل دلالي بالقطبية المناسبة 
ا ب .(Bootstrapping)‏ 
أخيرا يتم الحصول على ثلاث فثات 


من الحقول الدلالية يحتوي كل La‏ 
على كلمات متشابه القطبية 











يتم تطبيق العلاقات المعجمية: 
hyponym, Hypernym, Part of, totality,)‏ 
(place, time‏ ذلك للحصول على حقول دلالية 
ذات قطبية متساوية 


يتم تطبيق العلاقة المعجمية: 


(Antonyms)‏ ذلك للحصول على حقول 
دلالية قد تكون ذات قطبية عكسية 





الايجابية والسلبية 


[s المرادفات لكل كلمة من‎ ui 


ابدأ بثلاث بذور أولية 
-Obj‏ موضوعية <3- & سلبية >16- & إيجابية 


Te nee we 


-16> 


الشّكل :١6-5‏ التعلم الذاتي باستخدام التمهيد (Bootstrapping)‏ 
* بعد ترميز كل حقل دلالي يتم حساب قيم الإيجابية والسلبية وا موضوعية لكل 
* يراعى أن يكون مجموع القيم الإيجابية والسلبية والموضوعية لكل كلمة يساوي 


رقم الواحد الصحيح. 


—YVo- 


















































هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ييا 


Y Y‏ تصنيف موضوعية النص 

لتصنيف الجملة وفقا لتوجهاتها الدلالي» يتم تنفيذ المهام التالية: 

* تحديد القطبية لمكونات الجملة 

يتم تصنيف العبارات في كل جملة. ويطلق على هذه العبارات مصطلح القرائن. والقرينة 
الواحدة قد تحتوي على أكثر من كلمة واحدة. يتم هذا التصنيف من خلال تحديد العناصر 
التالية: 


e‏ تحديد ما إذا كانت القرينة موضوعية» تقديرية» أم حيادية. 


تحديد اتجاه قطبية القرينة: يميل نحو إيجابية» أم يميل سلبية. 
8 ديل قر #قطية ال ا در الاما در الا 
ولكن كيف يتم تحديد القطبية وقوتها لكل قرينة؟ 
i‏ بالنسبة للقرائن وحيدة الكلمة يتم الحصول على قطبيتها وقوتها من خلال قاعدة 
بيانات يطلق عليها اسم «العيار الذهبي» حيث يتم إعدادها يدويا أو يتم إنشائها 
امار ب (Bootstrapping)‏ المذكور آنفا. 
* بالنسبة للقرائن ثنائية الكلمة أو ثلاثية الكلمة أو عدد ن من الكلمات (يطلق على 
هذا المصطلح «النّحو العدديّ [0-1:ة:6») يتم الحصول على قطبيتها وقوتها 
(Algorithm (PMI) Information Mutual‏ وذلك JL‏ جوع إلى قطبية 
القرائن وحيدة الكلمة وإلى المعيار الذهبي. 
وباختصار شديد فإن قيمة (PMI)‏ بين كلمتين W2 owl‏ تعبر عن مدى تواجد 
هاتين الكلمتين متتابعتين في اللغة العربية: 
PMI (w1,w2) = log2 [p(w1&wl)/p(wl).p(w)]‏ 


حيث p‏ تمثل مدى تكرار الكلمة في اللغة» 1082 تمثل الدالة اللوغارقية. 


-]/اا- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
O‏ 


٠‏ تحديد الرأي على مستوى الجملة 
يتم ذلك باستخدام عدة أساليب مختلفة منها ما يعتمد على تطبيق خوارزمات تعلم 
الآلة ومنها ما يعتمد على استخدام التحليل اللغوي للجملة. 





5 لدت‎ er 2 ق‎ ana 


الشّكل 15-4 : تحديد الرأى على مستوى الجملة. 
٠‏ تحديد الرآي (خوارزمات تعلم الآلة): 
تعمل خوارزمات تعلم الآلة على جموعة من e tll‏ يتم استتخلاصها من الجملة 
كما 5S3‏ في الفصل الثاني من هذا الباب (تلخيص النصوص). ويتم التعبير عن هذه 
الخصائص بدلالة قطبيات القرائن التي تم استخراجها من الجملة. 


وتتطلب خوارزمات تعلم الآلة وجود XL dA‏ مُعَنونة يدويا بالرأي أو بطريقة 
(Bootstrapping)‏ لتوفير المجهود اليدوي. 

عادة ما تكون ceu‏ استخدام خوارزمات تعلم الآلة e‏ إذا كانت Jo‏ الحديدة 
مراد استخلاص الرأي منها تأي من نفس Jle‏ المدَوّنة ERAT‏ التي استخدمت في 
تعليم الآلة. فمن غير المتوقع أن تكون النتائج غير مرضية عند استخدام آلة قد تم 
تعليمها لنصوص إخبارية في تحليل الرأي لنصوص في مجال الطب. 


eye 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ييا 


٠‏ تحديد الرأي والتحليل النحوي للجملة العربية: 

التحليل النحوي للجملة يتميز بقدرته على الاستخدام في co NUR‏ متنوعة وبالتالي 
يحل مشكلة خوارزمات تعلم الآلة المذكورة أعلاه. 

فالتحليل النحوي الصحيح للجملة يحدد الحدث ومن فاعله ومن وقع عليه 
ومن قام بالاشتراك فيه» وينتج عنه ربط الصفة بالموصوف» وينتج عنه ربط الضمائر 
بالكائنات الاسميّة ال موجودة بالجملة. ولذا يستخدم التحليل النحوي للجملة العربية 
مقرونا بوحدة التعرف على الكائنات الاسميّة لتحديد موضوع الرأي ومن هو صاحب 
الرأي وما هو الرأي نفسه. 

على الرغم من النتائج الإيجابية لوحدة التعرف على الكائنات الاسميّة إلا أن 
خوارزمات التحليل النحوي المتاحة للنصوص العربية لا تضاهي مثيلاتها للغة 
الإنجليزية وتمثل نقطة الضعف في الوصول إلى أنظمة استخلاص الرأي التى تعمل 
بكفاءة. l‏ 

مع زيادة كفاءة المحلل النحوي (والدلالي) ودمجها مع خوارزمات تعلم الآلة فإنه 
من المتوقع أن ترتفع دقة أنظمة استخلاص الرأي بصورة ملحوظة. 


4- الموارد اللغوية اللازمة المتاحة والمطلوبة 

تحتاج نظم تنقيب الآراء طبقا للتقنيات المستخدمة في تنفيذها إلى أحد أو بعض 
الموارد اللغوية التالية: 

١‏ - قواعد البيانات المعجمية. 

-Y‏ قواعد البيانات المعجمية الدلالية. 

Y‏ 7 نظم المحللات الصرفية والنحوية. 

-٤‏ المدّوّنات ÉI‏ المتنونة الدالة على موضوع الكلمة وقيمها التقديرية. 

ويلاحظ أن نظم المحللات الصرفية والنحوية وقواعد البيانات المعجمية تعتبر 
قاسم مشترك لتطبيقات لغوية كثيرة» وبصفة عامة OB‏ كثير من الموارد اللغوية متاحة 


—YVA- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO NN‏ 


(بمقابل مادي بسيط للباحثين) للغات الإنجليزية واللغات الأوربية الرئيسية واللغات 
الأسيوية مثل الصينية ولكنه شحيحة على مستوى اللغة العربية. 
فعلى مستوى اللغة الإنجليزية نجد: 
Y, 5‏ - شبكة الكلمات (WordNet)‏ (من جامعة برينستون) وتشتمل على مفردات 
اللغة الإنجليزية وأمثلة لاستخداماتها ومعانيها المختلفة ومدى شيوع 
استخدامها والكلمات المرتبطة ببعضها؛ وغيرها من المعلومات. وبيانها 


الإحصائي كالتالي: 
| المجموع ترادف الكلمات بدون تكرار جزء الكلام | 
أزواج الكلمات - Strings gu‏ 
١١177 5١6 1۲‏ اسم 
Yo:tv‏ ۳77۷ 104 فعل 
۱۸۱٩7١ TY‏ 17۹ صفة 
EEA) ۳1۲۱ 00A*‏ حال 
Yo00YAV ١١49 4۱‏ المجموع 

















الجدول :١- ٤‏ أعداد الكلمات وفئات الكلمات والمعاني 


متعدد المعنى متعدد المعنى وحيدة المعنى قم الكلام 
المعاني الكلمات الكلمات والمعاني 
۹A7 Yo4Yo ۹‏ اسم 
Yyy oYoY \AYY `‏ فعل 
Eav ۳44‏ 10۰۳ صفة 
YV£A yv YAY Y‏ حال 
vago.‏ 005 ۸4۱ المجموع 

















الجدول £ :Y-‏ بيانات تعدد المعاني 


-11/4- 


















































هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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متوسط تعدد المعنى متوسط تعدد المعنى 5 
باستثناء الكلمات ذات المعنى الواحد | شاملة الكلمات ذات المعنى الواحد يسم اكلام 
١ Y,VA‏ اسم 
Yoy‏ ۱۷ فعل 
١5 ۲,۷۱‏ صفة 
Yo Yos‏ ,\ حال 














الجدول 4 Y-‏ متوسطات تعدد المعاني لأقسام الكلام 


«(SentiWordNet) قواعد البيانات المعجمية الدلالية‎ - Y, ٤ 

وهي شبيهة بشبكة (WordNet) AIII‏ ولكن مع التركيز على معلومات المشاعر 
(Sentiments)‏ للكلمات. فمع كل مجموعة ترادفات للكلمة يتم وضع البيان الثلاثي 
التالي (ثلاث أرقام): قيمة الموضوعية» قيمة الإيجابية» قيمة السلبية. 


مثال كلمة interesting)‏ (بمعني مثيرة للاهتام) تأخذ القيم التالية: 
معنى إيجابي: ۰,۲۲١‏ معنى سلبي * كلمة موضوعية: ٠‏ 


وموقعها داخل المثلث كالتالي: 


الشّكل 17-4 : قطبية الكلمة 


aA ve 























هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
^o 0 ——— EEEEME]£XUKMZNKMKMEENEEEEEMEMNM‏ 


٤‏ و "- المدّوّنة E A‏ المزودة بالحواشي الدالة على موضوع الكلمة وقيمها التقديرية: 
ويحتوي على ٥٠١‏ مقالة إخبارية تحتوي على ١١١١54‏ جملة» كل كلمة فيها مزودة 
بالحواشي الدالة على موضوع الكلمة وقيمها التقديرية. 


٤‏ و 5 - نظم المحللات الصرفية والنحوية: 
يتوافر العديد منها للغة الإنجليزية مثل محلل ستانفورد (من جامعة ستانفورد) 
وال dsl contes codi‏ 
ومنها من يدعم اللغة العربية مثل محلل ستانفورد ولكن دقة التحليل لم تصل بعد إلى 
مثيلاتها بالنسبة لتحليل اللغة الإنجليزية. 
فمثلا الجملة التالية (تم إدخاها إلى محلل ستانفورد النحوي؛ وهو محلل مبني على 
النموذج الإحصائي للغة العربية والمدّوّنات النّصَّيّة المكنونة): 
«مظاهرات أمام مكتب شرف للمطالبة بمحاكمة سميرة مبارك وفريدة حسن.» 
وكان ناتج التحليل اللغوي كالتالي (لاحظ تحليل كلمة «أمام» وكلمة «للمطالبة» 
وموقعهم في شجرة التحليل وكذلك بالنسبة لحرف «الواو»): 
الجملة Your query‏ 
مظاهرات أمام مكتب شرف للمطالبة بمحاكمة سميرة مبارك وفريدة حسن. 
الترميز Tagging‏ 
/NNS‏ مظاهرات 
/NN‏ أمام 
[NN‏ مكتب 
۸/ شرف 
/DTNN‏ للمطالبة 
/VBP‏ بمحاكمة 
NNP /5 ja‏ 
مبارك/ NNP‏ 
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NNP وفريدة/‎ 
NNP / 
PUNC /. 


Parsing التحليل النحوي‎ 
(ROOT 
(S 
(NP (NNS (مظاهرات‎ 
(NP (NN (أمام‎ 
(NP (NN (مكتب‎ 
(NP (NN )شرف‎ 
(NP (DTNN ((((((للمطالبة‎ 
(VP (VBP (بمحاكمة‎ 
(NP 
(NP (NNP (سميرة‎ (NNP ((مبارك‎ 
(NP (NNP (وفريدة‎ NNP ((((حسن‎ 
(PUNC .)) 


ه- التوجهات المستقبلية والتحديات dl‏ تواجه تنقيب الآراء 
Y‏ - بناء قواعد بيانات متخصصة للكائنات الاسمية (Gazetteers)‏ فمثلاً هناك 
قواعد تشتمل على أساء الأشخاص وأخرى على sl‏ المدن وهكذا. ويتم 
ذلك من خلال برمجيات عديدة تحاول تجميع هذه البيانات. 
-Y‏ بناء محللات إعرابية عالية الجودة؛ فلا تزال هذه المحللات ينقصها الكثير حتى 
تستطيع أن تتعامل مع قضايا الالتباس في الجملة وخصوصا في الجمل الطويلة. 
-Y‏ تحديد ما إذا كان المستند أو الجزء (الجملة أو الفقرة) CIS‏ متعلقا بالفاعل ويعبر 
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-٤‏ الصعوبة الي تقع نتيجة ثراء اللغة البشرية. 

5- يمكن أن تعبر كلمة أساسية واحدة عن ثلاثة آراء ختلفة (رأى eall‏ ومتعادل» 
وسالب بالترتيب) معتمدة على سياق النص. 

5- من أجل الوصول إلى موجز محسوس أو استنتاجات واضحة فإن تحليل 
وجهات النظر يجب أن يشمل فهم السياق. 

۷- معظم الأبحاث في تقنيات التنقيب في الآراء تتعامل مع كلمات المحتوى | 
ذكرنا سابقا ولكن هناك أنواع أخرى من الكلمات ها تأثيرها في تحديد الرأي 
المرتبط بالنص مثل «ومع ذلك» ومثل كلمة D‏ لكن» في النص التالي: 

«هذا الكتاب جيد ولكنه صعب الفهم» 

طبقا لكلمات المحتوى الموجود بالنص فإن الرأي المستخلص هو «حيادي» نظرًا 
OS‏ عدد الكلمات الإيجابية في النص (كلمة جيد) تساوي عدد الكلمات السلبية 
فيه (كلمة صعب). البعض منا يمكن أن يصنف الرأي في الكتاب بأنه إيجابي 
نظرا OY‏ موقع كلمة «جيد» جاءت قريبة من الكتاب. إن إذا أخذنا في الاعتبار 
كلمة «لكن» الموجودة في النص فالبعض الأخر من المكن أن يعتبر أن يصنف 
الرأي في الكتاب بأنه سلبي» وهكذا. 

-A‏ الأخذ في الاعتبار أخطاء الكتابة والقدرة على تصحيح الأخطاء. 

4- التعامل مع ما يمكن تسميته الجمل ذات العلاقات العميقة المتداخلة مثل: 
«هذا الطالب توفرت له جميع إمكانيات النجاح من ذكاء وسرعة بديبة وقوة ذاكرة 

ومهارة مدرس لکن قدر الله نافذ». 
Lb‏ الطالب العبقرى! هناك حل أسهل كثيرا»). 
«ولكن قومي وإن كانوا ذوي عدد ليسوا من الشر ني شيء وإن هانا». 
- صعوبة التوافق البشري على نفس المستند» فهناك ما يقرب من فرصة 7// أن 
يتفق اثنان أو أكثر من المحللين البشريين مع بعضهم البعض. 
١‏ وغيرها من التحديدات التي تتطلب الكثير من الأبحاث. 
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الدكتور/ oe‏ عبد SAJI‏ علي رشوان 

cuan xn‏ اسا بقسم الإلكترونيات والاتصالات 
الكهربائية في IIS‏ اهندسة — جامعة القاهرة. E OZ‏ عام VAVV‏ 
وكان الأول على دفعته» وحصل على a»‏ ماجستيرات» ثم 
على الدكتوراه من جامعة كوين بكندا؛ أشرف على أكثر من ماثة 
رسالة ماجستير ودكتوراه. يدير الشّركة ا هندسيّة لتطوير النْظّم £57 RDI Za‏ المتخَصّصة 
فى ال FACTEUR‏ 





الدكتور/ لمعت بالله السّعيد طه 

أستاذ الدّراسات اللو ية المُساعد بجامعة القاهرة» وأستاذ 
Ue SL‏ ا RW E icf dignas‏ 
ومنسق وحدة الموارد المعجمية بمشروع م مُعجم الدّوحة. 
LS‏ نحوّ ثلاثنَ ورقة (eade‏ بالإضافة SOR‏ 
في المُعجَويّة CI‏ والدّراسات S‏ المُعاصرة» ee‏ اک فن دة 
oe‏ دول في ميادين dua‏ اللات Eel‏ . حصل على عد من الجوائز 
في يدان تخصصهء منها : جائزة (ألكسو (ALECSO‏ للوبداع والابتكار في t Lm‏ 
ZI LU JU,‏ لل er setis I‏ زة راشد بن حميد للعلوم والثقافة. 





الدكتور/ أسامة إمام 

حصل هن جامعة القاهرة على بكالوريوس ddl dl‏ 
zi‏ والمنظومات عام 1985م وعلى درجة الماجستير عام 
P ce \ AAV‏ على درجة الدكتوراه في ذات Nov‏ عام 
KS gu‏ - في الوقت ال حالي - مُديرًا لمركز أبحاث الذكاء 
الأصطناعي بشركة RS LES. aa — IBM‏ من *0 ورقة ile‏ 
حولٌ حوسبة ة اللّغة 2s 7I‏ وتقنياتها xn ade c9» d‏ دولية مُتخصّصة. 
Y Y ja‏ براءة اختراع؛ وحصل على العديد من الجوائز edi‏ 
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الدكتور/ وَلِيد مجدي 

أستاذ مساعد في جامعة إدنبرة ببريطانيا وزميل في معهد 
ألان تيورينج في لندن. يحمل درجة الدكتوراه من جامعة دبلن 
في أيرلندا في علوم الحاسب ودرجتي الماجيستير والبكالوريس 
من كلية الهندسة جامعة القاهرة؛ وهو aè‏ في مجال الحوسبة 
الاجتماعية واسترجاع المعلومات. له أكثر من ٠١‏ ورقة عِلميّة في 
دوريّاتٍِ e‏ ومُؤتمراتٍ دَولِيَةِ مُتَخَصّصة؛ وله تسع براءات اختراع مُسَجَلّة باسمه في 
أوروبا والولايات المتنّجدة الأمريكيّة. je‏ عدو من الشَّركات والمؤسّسات العلميّة: 
منها: مايكروسوفت و IBM‏ ومؤسسة قطر. 





الدكتور/ أحمد رافع 

(pau‏ على درجة الدكتوراه من جامعة بول ساباتييه في 
تولوز بمَرَنسا؛ Lat,‏ أستادًا لعُلُوم الحاسب بال جامعة الأمريكيّة 
في القاهرة. شارك - باحثا Uus)‏ - في العديد من المشروعات 
الذولية ell‏ بتطوير xe JE‏ الآليّة والتنقيب عن الآراء في 
ات cele MEL‏ وا ین ela ij - 63b) £e adl AA uo‏ 
ال cole‏ مم plam‏ ونؤكسات d Etre‏ أوروبا والولايات s, Aia‏ 





une de de الدكتور/‎ 

ua‏ العَبِيدٌ ZI LUE‏ الخاسيات (d cola ell y‏ جامة 
القاهرة؛ يعمل - في الوقت الحاليٌ - أستادًا في الذّكاء الاصطناعيٌ 
وتعلم الآلة. عمل خلال الفترة من ۲۰۰۵ إلى AA Y V‏ 
التميز في التنقيب في البيانات ونمذجة اللغة DMCM‏ في مصرء 
ول to aea‏ بار ف ous‏ ]اللخ لعز deli s‏ 
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مباحث لغوية OV‏ 


المُعاتّجة الآلبّةَ للُصُوص العربيّة 


يُصدر مركز الملك عبداللّه بن عبدالعزيز الدولي لخدمة اللغة العربية هذا الكتاب ضمن سلسلة 
(مباحث لغوية). وذلك وفق خطة عمل مقسمة إلى مراحل؛ لموضوعات علمية رأى المركز حاجة المكتبة 
اللغوية العربية إليهاء أو إلى بدء النشاط البحثي فيهاء واجتهد 2 استكتاب نخبة من المحررين والمؤلفين 
للنهوض بعنوانات هذه السلسلة على أكمل وجه. 

ويهدف المركز من وراء ذلك إلى تنشيط العمل .2 المجالات التي 4235 إليها هذه السلسلةء سواء أكان 
العمل علميا بحثياء أم عمليا تنفيذياء ويدعو المركز الباحثين كافة من أنحاء العالم إلى المساهمة .2 هذه 
السلسلة. 

353 الأمانة العامة أن تشيد بجهد السادة المؤلفين؛ وجهد مُحَرّرَي الكتاب» على ما تفضلوا به من رؤى 
وأفكار لخدمة العربية # هذا السياق البحثى. 

والشكر والتقدير الوافر لمعالي وزير التعليم المشرف العام على المركز الذي يحث على كل ما من 
شأنه تثبيت الهوية اللغوية العريية: وتمتينهاء وفق رؤية استشرافية محققة لتوجيهات قيادتنا الحكيمة. 

والدعوة موجهة إلى جميع المختصين والمهتمين للتواصل مع المركز؛ لبناء المشروعات العلمية؛ وتكثيف 


الجهودء والتكامل نحو تمكين لغتنا العربيةء وتحقيق وجودها السامى 2 مجالات الحياة. 


الأمين العام للمركز 
أ. د. محمود إسماعيل صالح 
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